杭州對沖基金兼AI公司幻方量化旗下的DeepSeek(深度求索)近期發布的新一代AI模型DeepSeek-V3,迅速在全球科技界引起轟動。這款模型的最大亮點在於,其訓練過程中使用的是性能受限的次級NVIDIA H800 GPU,卻在性能表現上足以媲美全球領先的AI語言模型,如OpenAI的GPT-4o和Meta的Llama 3.1。
突破技術限制 展現卓越性能
DeepSeek-V3於去年12月26日正式發布,僅用不到兩個月的時間完成訓練,並具備高達6,710億參數。值得注意的是,DeepSeek在訓練過程中僅使用了2,048張H800 GPU,總成本約為557萬美元,僅為OpenAI訓練GPT-4o所需資金的5%。與之相比,Meta的Llama模型訓練過程中使用了1.6萬塊H100 GPU,耗時54天,成本超過5億美元。
DeepSeek能夠在有限資源下達成如此成果,得益於其創新的技術架構,包括專家混合(Mixture of Experts, MoE)框架和FP8混合精度計算技術。MoE架構允許模型根據用戶提示啟用相關的專家網絡,從而顯著減少運算量。而FP8技術則提高了運算效率並降低了內存占用,儘管有業界人士指出可能會影響模型的精確度。
開源與強化學習 帶來顛覆性影響
基於DeepSeek-V3訓練的進階模型DeepSeek-R1,在數學、編程和自然語言推理等領域展現出與OpenAI o1正式版「比肩」的表現。DeepSeek選擇採用開源策略,並廣泛使用強化學習技術進一步優化模型性能。此舉引發了全球業界的熱烈討論,矽谷知名投資人Marc Andreessen更在社交媒體上稱其為”東方的神秘力量”。
DeepSeek的開源策略與其創始人梁文峰的研究導向密不可分。梁早年通過量化交易積累了豐富的算法和硬件優化經驗,並於2023年創建DeepSeek,目標是開發具有人類認知能力的AI系統。DeepSeek的研究團隊主要由畢業於北京大學、清華大學和北航的本土人才組成,體現了其本地化發展的戰略定位。
美國晶片禁令反助創新
DeepSeek-V3的成功也對美國的AI晶片出口管制提出了新的挑戰。美國於2023年限制先進H800 GPU出口至中國,而DeepSeek在這樣的限制條件下成功訓練出高性能模型,展現了其技術創新能力。學者認為,這一成果表明,即使在缺乏最先進硬件的情況下,AI技術仍可通過提升效率和優化算法實現突破。
佐治梅森大學經濟學教授泰勒·科恩(Tyler Cowen)指出,DeepSeek的成就顯示出,僅需較少的資金便可訓練出高質量AI模型,這可能導致類似系統被應用於其他國家,對全球AI競爭格局產生深遠影響。
業界對規模定律的反思
DeepSeek-V3的出現重新引發了業界對規模定律(Scaling Law)的思考。過去主流觀點認為,增加數據、參數和運算資源是提升AI模型性能的關鍵。然而,DeepSeek以較少資源達到卓越性能的成功案例,顯示出優化技術與創新架構的重要性,或將改變未來AI模型的開發模式。
開放的未來
DeepSeek的開源模式被視為推動AI產業創新的重要一步,其成功激發了全球範圍內對AI技術更高效、更經濟發展路徑的關注。然而,隨著OpenAI等美國企業加速建設下一代超算集群,DeepSeek能否在未來持續保持競爭力,仍是未知數。
無論如何,DeepSeek-V3的誕生已經成為AI發展史上的重要里程碑,標誌著中國企業在全球科技競爭中的嶄新地位。