MiniMax 開源首個推理模型,456B 參數,性能超 DeepSeek-R1,技術報告公開
使用 512 塊 H800 訓練三周,租賃成本不到 400 萬元。
智東西 6 月 17 日報導,今日淩晨,“大模型六小虎”之一 MiniMax 發佈全球首個開源大規模混合架構的推理模型 MiniMax-M1,並官宣了為期五天的連更計劃。
M1 參數規模為 4560 億,每個 token 啟動 459 億參數,原生支援 100 萬上下文輸入以及業內最長的 8 萬 token 推理輸出 ,輸入長度與閉源模型谷歌 Gemini 2.5 Pro 一致,是 DeepSeek-R1 的 8 倍。 此外,研究人員訓練了兩個版本的 MiniMax-M1 模型,其思考預算分別為 40k 和 80k。
MiniMax 在標準基準測試集上的對比顯示,在複雜的軟體工程、工具使用和長上下文任務方面,MiniMax-M1 優於 DeepSeek-R1 和 Qwen3-235B 等開源模型。
其博客提到,在 M1 的整個強化學習階段,研究人員使用 512 塊 H800 訓練了三周,租賃成本為 53.74 萬美金(摺合人民幣約 385.9 萬元),相比其一開始的成本預期少了一個數量級。
M1 在 MiniMax APP 和 Web 上支援不限量免費使用。 API 價格方面,第一檔 0-32k 的輸入長度時,輸入 0.8 元/百萬 token, 輸出 8 元/百萬 token; 第二檔 32k-128k 的輸入長度時,輸入 1.2 元/百萬 token, 輸出 16 元/百萬 token; 第三檔 128k-1M 輸入長度時,輸入 2.4 元/百萬 token, 輸出 24 元/百萬 token。
DeepSeek-R1 輸入長度是 64k,輸出預設 32k 最大 64k,因此可以對標 M1 第一檔和第二檔價格。 不過,M1 第一檔、第二檔價格相比 DeepSeek-R1 優惠時段都沒有優勢 。
在標準時段,M1 第一檔輸入價格是 DeepSeek-R1 的 80%、輸出價格為 50%; 第二檔輸入價格是 DeepSeek-R1 的 1.2 倍、輸出價格相同。
第三檔是 M1 的絕對優勢區,DeepSeek-R1 不支援 128k-1M 的輸入長度 。
▲MiniMax-M1 和 DeepSeek-R1 API 價格對比(DeepSeek-R1 括弧內為優惠時段價格)
幾乎與 MiniMax 同時,“大模型六小虎”另外一家月之暗面,也開源了程式設計模型 Kimi-Dev,程式設計能力強過 DeepSeek-R1。
體驗位址:https://chat.minimax.io/
GitHub 網站:https://github.com/MiniMax-AI/MiniMax-M1
擁抱臉: HTTPs://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
技術報告地址:HTTPs://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf
01.Agent 工具使用能力一騎絕塵,數學、程式設計略遜
基於業內主流 17 個評測集,MiniMax-M1 的評測結果在軟體工程、長上下文、工具使用等方面的表現優於其他開源或閉源模型。
OpenAI 發佈的 MRCR 測試集中,M1 的表現略遜於 Gemini 2.5 Pro,相比其他模型效果更好 。 MRCR 評估的是大語言模型區分隱藏在長上下文中多個目標的能力,要求模型在極其複雜且多重干擾的長文本中,準確區分多條幾乎相同的資訊,還需識別其順序。
在評估軟體工程能力的測試集 SWE-bench Verified 中,MiniMax-M1-40k 和 MiniMax-M1-80k 的表現略遜於 DeepSeek-R1-0528,優於其他開源模型 。
Agent 工具使用方面,在航空業的測試集 TAU-bench(airline)中,MiniMax-M1-40k 表現優於其餘的開源和閉源模型,零售業測試集 TAU-bench(retail)中,與 DeepSeek-R1 表現相當。
但在數學、程式設計能力等方面,其得分相比 Qwen3-235B-A22B、DeepSeek-R1、Claude 4 Opus 等都較低。
▲MiniMax-M1 評測結果
與此同時,MiniMax-M1-80k 在大多數基準測試中始終優於 MiniMax-M1-40k,這可以驗證其擴展測試時計算資源的有效性。
02.閃電注意力機制高校擴展計算,擅長處於長輸入+廣泛思考
M1 是基於 MiniMax-Text-01 模型開發,採用了混合專家(MoE)架構和閃電注意力機制 。
M1 的閃電注意力機制可以高效擴展測試時計算。 例如,與 DeepSeek-R1 相比,M1 在 10 萬個 token 的生成長度下只需消耗 25%的 FLOP,使得 M1 適合於需要處理長輸入和廣泛思考的複雜任務。
另一個技術重點是使用大規模強化學習(RL)進行訓練,其應用範圍可涵蓋從傳統數學推理到基於沙盒的真實軟體工程環境等問題。
MiniMax 為 M1 開發了 RL 擴展框架 ,重點包括:提出 CISPO 新演算法,可通過裁剪重要性採樣權重而非 token 更新來提升性能,其性能優於其他競爭性 RL 變體; 其混合注意力機制設計能夠提升 RL 效率,並利用混合架構來應對擴展 RL 時面臨的挑戰。
此外 MiniMax 提到,在 AIME 的實驗中,他們發現 CISPO 比位元組近期提出的 DAPO 等強化學習演算法收斂性能快了一倍,顯著優於 DeepSeek 早期使用的 GRPO。
研究人員在基於 Qwen2.5-32B-base 模型的 AIME 2024 任務上,對 GRPO、DAPO 以及 CISPO 進行了對比,結果表明:在相同訓練步數下,CISPO 的性能優於 GRPO 和 DAPO; 而當使用 50%的訓練步數時,CISPO 可達到與 DAPO 相當的性能表現。
03.結語:多 Agent 協作面臨,超長上下文、數百輪推理挑戰
為了支援日益複雜的場景,大語言模型在測試或推理階段,往往需要動態增加計算資源或計算步驟來提升模型性能,MiniMax 在研究報告中提到,未來大模型尤其需要“Language-Rich Mediator”(富語言仲介)來充當與環境、工具、計算機或其他與 Agent 交互的 Agent,需要進行數十到數百輪的推理, 同時集成來自不同來源的長上下文資訊。
在這樣的背景下,作為 MiniMax 推出的首個推理模型,MiniMax-M1 正是其面對這一行業發展趨勢在演算法創新上的探索。
本文來自微信公眾號 「智東西」(ID:zhidxcom),作者:程 茜,36 氪經授權發佈。