Thinking Machines Lab 發(fā)布首款產(chǎn)品 Tinker,大幅降低大模型微調(diào)門檻
北京,2025年10月2日 —— 由前 OpenAI 高管 Mira Murati、翁荔(Lilian Weng)與陳丹琦聯(lián)合創(chuàng)立的 Thinking Machines Lab,今日正式發(fā)布其首款產(chǎn)品——Tinker,一款面向研究人員的語言模型微調(diào) API 工具,旨在讓模型微調(diào)“像改 Python 代碼一樣簡單”。
打破壁壘:微調(diào)不再高不可攀
Tinker 的推出標志著 Thinking Machines Lab 正式摘掉“0 產(chǎn)品 0 收入估值 840 億”的標簽。聯(lián)合創(chuàng)始人翁荔表示:“GPU 價格昂貴,基礎(chǔ)設(shè)施搭建復雜,這讓很多研究人員難以接觸前沿模型。Tinker 是我們提升研究生產(chǎn)力的第一步。”
與傳統(tǒng)“上傳數(shù)據(jù)、我們幫你訓練”的黑箱模式不同,Tinker 讓研究人員保留對數(shù)據(jù)、損失函數(shù)與算法的完全控制權(quán),同時自動處理分布式訓練、前后向傳播、錯誤恢復等底層細節(jié)。用戶只需修改一行代碼,即可從小模型切換至大模型,支持 Qwen3 與 Llama3 系列。
開源+靈活:研究社區(qū)的“新玩具”
Tinker 提供底層訓練接口如 forward_backward 與 sample,并采用 LoRA 技術(shù)實現(xiàn)多任務(wù)共享 GPU,顯著降低實驗成本。除云托管服務(wù)外,團隊還開源了 Tinker Cookbook,涵蓋多種后訓練方法實現(xiàn),供社區(qū)自由使用。
微軟研究員在代碼審查中發(fā)現(xiàn),Tinker 并未采用 DeepSeek 提出的 GRPO 方法,而是使用經(jīng)典 REINFORCE 算法配合優(yōu)勢函數(shù),簡化了梯度更新流程。其更新策略可概括為:
新參數(shù) = 原參數(shù) + 學習率 × 優(yōu)勢值 × 對數(shù)概率的梯度
業(yè)內(nèi)反響:抽象與可控的平衡點
AI 基礎(chǔ)設(shè)施公司 Anyscale 的 CEO Robert Nishihara 表示,Tinker 在“抽象化與可調(diào)性之間取得了卓越平衡”。普林斯頓、斯坦福、伯克利與 Redwood Research 等頂尖研究團隊已成為首批用戶,并基于 Tinker 完成多項實驗。
AI 研究者 Andrej Karpathy 公開評價稱:“Tinker 很酷。它讓微調(diào)不再是‘換風格’,而是縮小任務(wù)范圍的有效手段。尤其在訓練樣本充足時,微調(diào)小模型往往優(yōu)于構(gòu)建復雜 prompt。”
“重新發(fā)明一個 OpenAI”
Tinker 的發(fā)布只是開始。據(jù)多家媒體報道,Thinking Machines Lab 正在嘗試“重新發(fā)明一個 OpenAI”——重建那個“尚未官僚化、公開分享成果、給研究者自由”的 OpenAI。
與此同時,OpenAI 則似乎正走向另一條路。近日,其 ChatGPT 應(yīng)用代碼中被發(fā)現(xiàn)正在測試“社交模式”,包括群聊通知、頭像與昵稱設(shè)置等功能,暗示其或?qū)⒋蛟?ldquo;AI 抖音”式社交平臺。
關(guān)于 Thinking Machines Lab
Thinking Machines Lab 成立于 2024 年,由 Mira Murati、Lilian Weng 與陳丹琦聯(lián)合創(chuàng)立,致力于降低 AI 研究門檻,推動前沿模型民主化。公司目前估值 84 億美元,總部位于舊金山。