復旦教授談DeepSeek AI界的“鯰魚”效應

科技圈從來不缺新聞,但 DeepSeek-R1 的出現卻像一顆石子投入平靜的湖面,激起了層層漣漪。這家來自中國的 AI 初創公司以其開源的推理大模型 R1 攪動了全球 AI 格局。R1 不僅性能媲美甚至超越 OpenAI o1,還以低廉的成本和開放的姿態贏得了全世界的關注。DeepSeek-R1 的開源策略和高效性能正在迫使整個行業重新思考 AI 的未來。

中國計算機學會青年計算機科學與技術論壇(CCF YOCSEF)近期組織了一場研討會,邀請了復旦大學邱錫鵬教授、清華大學劉知遠長聘副教授、清華大學翟季冬教授以及上海交通大學戴國浩副教授四位專家,從不同角度深入解析了 DeepSeek-R1 的技術突破與未來影響。

要理解 R1 的突破,需要從 o1 類推理模型說起。邱錫鵬認為目前人工智能領域正面臨一個重點轉折點。目前 Ilya 稱“預訓練時代可能即將結束”,主要源于數據增長的停滯。OpenAI 開始轉向強化學習和推理式計算,試圖通過增加推理長度來改進模型性能,為下一代大模型的發展注入新動力。

o1 模型的訓練在強化學習框架下進行,大語言模型充當一個 Agent,每個動作生成下一個 token,最終生成整個 step 或 solution。o1 這類大型推理模型可以分為四個核心要素:策略初始化、獎勵函數設計、搜索策略和學習過程。策略初始化要求模型具備初始的類人推理行為能力,包括問題理解、任務分解及驗證和修正錯誤的能力。獎勵函數設計則涉及從環境中直接獲得獎勵信號或通過專家偏好數據訓練獎勵模型。搜索策略包括基于樹的搜索和基于順序修改的搜索。學習過程主要包括使用強化學習和其他方法優化模型,分為預熱階段和強化學習階段。

R1 發布了兩個版本:R1-Zero 和 R1。R1-Zero 完全依靠強化學習驅動,不經歷預熱階段,沒有任何初始的人工調節。在訓練過程中,隨著步驟的增加,模型逐漸展現出長文本推理能力,尤其是長鏈推理,并表現出自我修正能力。不過也存在一些問題,如語言混合的問題。

R1 的訓練分為四個關鍵階段:冷啟動階段、推理導向的強化學習階段、拒絕抽樣與監督微調階段,以及全任務強化學習階段。值得注意的是,R1 并未采取傳統的過程監督或蒙特卡洛樹搜索等技術,而是通過 majority vote 大幅提高推理效果。尤其令人意外的是,R1 在寫作能力方面表現突出。

? 版權聲明
評論 搶沙發
加載中~
每日一言
不怕萬人阻擋,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender