媒體:DeepSeek不需要被神話 理性看待其成就

1月27日,DeepSeek AI智能助手登上中美iOS免費應用排行榜榜首,這是中國應用首次取得這一成績。與此同時,與該公司相關的多個詞條進入微博熱搜,其中一條是“DeepSeek徹底爆發”。這背后反映了開源模型追趕甚至超越閉源模型的情緒。

事實上,DeepSeek在這幾天并沒有特別的動作,將其推上輿論中心的力量主要來自meta。三天前,在美國匿名職場社區teamblind上,有meta員工表示,DeepSeek的低成本訓練工作讓meta的生成式AI團隊感到恐慌,工程師們正努力分析DeepSeek,試圖從中復制任何可能的東西。隨后,meta首席人工智能科學家楊立昆在X平臺上表示,對于認為“中國在人工智能領域正在超越美國”的人,正確的看法是“開源模型正在超越閉源模型”。

DeepSeek并不是突然崛起。從DeepSeek-V2開始,這家公司已被硅谷視為一股神秘力量。它在國內大模型行業率先發起了一場真正意義上的“降價潮”,憑借“MoE+MLA”架構創新實現了成本降低。近期熱議的原因在于它在過去一個月內相繼發布了DeepSeek-V3和R1兩款大模型產品。

2024年底,DeepSeek發布新一代MoE模型DeepSeek-V3,擁有6710億參數,激活參數為370億,在14.8萬億token上進行了預訓練。V3在知識類任務上接近目前表現最好的Claude-3.5-Sonnet-1022,在代碼能力上稍好于后者,并且在數學能力上領先其他開閉源模型。更重點的是,DeepSeek-V3的總訓練成本僅為557.6萬美元,完整訓練消耗了278.8萬個GPU小時,幾乎是同等性能水平模型所需成本的十分之一。

一周前,DeepSeek發布了推理模型R1,其性能對齊OpenAI-o1正式版,并同步開源模型權重。R1在多項任務上與OpenAI-o1-1217基本持平,尤其在AIME 2024、MATH-500、SWE-Bench Verified三項測試集上以微弱優勢取勝。此外,R1還開源了僅通過強化學習訓練的大語言模型R1-Zero,盡管沒有人類監督數據介入,但該模型足以對標OpenAI-o1-0912,探索出僅通過強化學習就能獲得推理能力的技術可能性。

? 版權聲明
評論 搶沙發
加載中~
每日一言
不怕萬人阻擋,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender