st

博客

DeepSeek火爆出圈 AI熱潮能否再掀巨浪?

更新時間: 二月 10, 2025    讀者人數: 34

DeepSeek火爆出圈 AI熱潮能否再掀巨浪?

最近一段時間,DeepSeek無疑是科技圈焦點中的焦點。由幻方量化旗下人工智能初創公司深度求索公司推出的AI大模型,一度登頂多個應用商店全球下載榜單之首。DeepSeek的火爆出圈,也點燃了資本市場的熱情,春節節後開盤以來,DeepSeek概念、雲計算等指數一路高歌猛進,漲幅均超10%,計算機、傳媒板塊也在中信一級行業中漲幅居前。
DeepSeek的突破主要體現在低成本和推理能力兩方面。V3模型在訓練成本和計算效率上取得了顯著進展,而R1模型則開創了訓練推理模型的新方法,通過FP8、MoE、MLA、PTX等工程優化,不僅將算力資源利用率最大化,顯著降低成本(例如其訓練成本僅爲OpenAI同類模型的1/30),且在數學、代碼和自然語言推理任務上表現出色,性能上比肩OpenAI o1。
在DeepSeek-R1模型之前,業界大模型普遍使用RLHF(Reinforcement Learning from HumanFeedback,基於人類反饋的強化學習),這一模式使用大量由人類撰寫的高質量問答以瞭解“什麼纔是好的答案”,就像是有一個老師一直在旁邊指導解題。這種方法雖然有效,但也存在瓶頸。R1模型突破性地放棄了RLHF中的HF(人類反饋)部分,只留下純粹的RL(強化學習),相當於不再依賴老師的指導,而是自己動手動腦,通過不斷嘗試和犯錯來學習。
具體來說,R1模型的強化學習模式給自己設定了兩個“獎勵函數”:
結果正確函數:每當找到一個正確答案時,就會給自己一個獎勵。這個答案是通過外部工具驗證的,確保是真正正確的。
思考過程函數:即使答案不一定完全正確,只要推理過程邏輯清晰、步驟合理,也會給自己一個獎勵。這就像是解題時,雖然最後答案不對,但思路很棒,值得鼓勵。
通過這種方式,R1模型不斷嘗試不同的解題方法,然後根據這兩個獎勵規則來評估自己的表現,最終學會了哪些方法更有效,哪些推理步驟更合理,最終變得越來越聰明,提升了推理能力。最重要的是,R1模型在這個過程中不需要大量的標註數據,而是通過自我學習和優化來提升能力。同時開源實現模型平權,縮短了開源模型和閉源模型的技術差距,也縮短了中國和美國人工智能之間的技術差距。
對於這一輪AI行情及未來潛在機會,DeepSeek的火爆意味着全球人工智能領域未來的發展可能更具有多元性,同時大模型降本也預計會加速人工智能應用端商業化閉環的形成。DeepSeek有望加速人工智能應用落地,帶動後訓練端、推理端算力需求的爆發增長。算力板塊後續結構上推理端需求佔比預計會進一步提升,對於推理算力芯片、端側算力形成利好。
另一方面,AI初創企業的運營模式將經歷轉變:那些依賴昂貴GPU集羣的AI企業可能會因爲成本上的不利地位而面臨破產風險。這將導致二手市場GPU供應量的大幅增加,而中小規模的AI企業則更可能傾向於採購價格更爲低廉的低端GPU。硬件需求也將經歷結構性的轉變:自去年以來,以訓練爲主導的算力需求已經開始向推理側轉移。未來這種趨勢預計將會持續,衆多中小AI企業將不再致力於訓練基礎模型,而是轉向採用DeepSeek這類開源模型。此外,英偉達在訓練市場的主導地位也將可能面臨重新評估。

關鍵詞: DeepSeek AI 火爆 熱門