12 月 1 日,DeepSeek 一口氣發布了兩款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
幾天過去,熱度依舊不減,解讀其技術報告的博客也正在不斷涌現。知名 AI 研究者和博主 Sebastian Raschka 發布這篇深度博客尤其值得一讀,其詳細梳理了 DeepSeek V3 到 V3.2 的進化歷程。
圖片
機器之心編譯了這篇深度技術博客,以饗讀者:
圖片
博客標題:A Technical Tour of the DeepSeek Models from V3 to V3.2
博客地址:https://sebastianraschka.com/blog/2025/technical-deepseek.html
與 DeepSeek V3 的發布策略如出一轍,DeepSeek 團隊再次選擇在一個美國主要節假日周末發布了他們的新旗艦模型。
鑒于 DeepSeek V3.2 展現出了極佳的性能水平(在基準測試中對標 GPT-5 和 Gemini 3.0 Pro),加之它本身也是一個開放權重模型,這無疑值得重點關注。
圖片
圖 1:DeepSeek V3.2 與專有旗艦模型之間的基準測試對比。來自 DeepSeek V3.2 報告 并加上了注釋。
我曾在文章《大型 LLM 架構對比》的開篇介紹過它的前身 ——DeepSeek V3。隨著新架構的不斷涌現,我在過去幾個月里一直在持續更新那篇文章。
原本,我剛和家人度完感恩節假期回來,計劃「只是」在原文章中增加一個新章節來簡單介紹這次新發布的 DeepSeek V3.2。但隨后我意識到,這次更新包含太多有趣的信息和細節,僅僅一個章節無法涵蓋。因此,我決定將其寫成一篇篇幅較長的獨立文章。
他們的技術報告中涵蓋了大量有趣的領域和值得學習的知識,讓我們開始吧!