這是用戶在 2025-7-1 20:23 為 https://36kr.com/p/3340289916188416 保存的雙語快照頁面,由 沉浸式翻譯 提供雙語支持。了解如何保存?

不用千億參數也能合成高質量數據,這個開源框架讓小模型“組團逆襲”,7B 性能直追 72B

量子位·2025 年 06 月 17 日 17:31
“類比頂會審稿”

無需蒸餾任何大規模語言模型,小模型也能自給自足、聯合提升?

上海人工智慧實驗室聯合中國人民大學提出的 GRA 框架 (Generator–Reviewer–Adjudicator) 正是這樣一種新範式:

該方法以「多人協作」、“角色分工”的理念為核心,系統性探索了多開源小模型如何通過協同機制生成高品質訓練數據。

實驗結果顯示,在涵蓋數學、代碼、邏輯推理、通識問答等 10 個主流數據集上,GRA 生成的數據品質與單個大型語言模型(如 Qwen-2.5-72B-Instruct)輸出相當或更高,並在多數任務中取得了顯著領先。

該專案已開源,詳細可見文末連結。

GRA 框架:“模擬論文投稿”

如果說傳統方法是單槍匹馬生成數據,那 GRA 更像是一次“類比頂會審稿流程”——作者、審稿人、AC 各就各位,小模型分工合作、打分評審,確保數據內容品質穩定、標準統一。

1.Generator:像“作者”一樣創作新樣本

GRA 會先將任務劃分為多個領域(如數學、程式設計、邏輯推理等),每個 Generator 小模型負責在對應領域生成新指令與回應。 它們從種子數據中提取關鍵詞與摘要,結合領域知識生成高品質樣本,確保內容豐富、主題聚焦、語義清晰。

2.Reviewer:像「審稿人」一樣嚴格評審

每條數據生成後,會交由多個 Reviewer 小模型進行兩輪審查:

首先檢查指令是否合理、清晰;

然後全面評估響應的正確性、相關性與語言品質,並打分附評語。

系統會根據平均評分與評分一致性篩選樣本——分數偏低的直接淘汰,意見分歧的則送入下一環節。

3.Adjudicator:像“AC”一樣做出最終裁決

當 Reviewer 之間出現評分衝突時,Adjudicator 小模型將登場,獨立複審並做出最終判斷。 它如同學術審稿中的 AreaChair,有效避免“多數誤判”,確保留下來的數據客觀、可靠。

4.後處理模組:讓好數據更“精緻”

通過評審后,系統還將進行語義去重、摘要補全與格式統一,進一步提升樣本的一致性與表達品質。

總的來說,GRA 構建了一個「類比頂會審稿」的自動化系統:小模型們輪流扮演創作、審閱、仲裁等角色,在多輪協作中生成高品質訓練數據。

這種機制不僅提升了數據生成的多樣性與公正性,也打破了以往對大模型蒸餾的依賴——實現了真正屬於小模型的“集體智慧”路徑。

實驗驗證:“三個臭皮匠賽過諸葛亮”

GRA 團隊選取了覆蓋數學推理(如 Math、GSM8K)、代碼生成(HumanEval、MBPP)、推理問答(HellaSwag、ARC-C、GPQA、BBH)和通識問答(MMLU、IFEval)四個領域的 10 個公開數據集,以全面評 GRA 框架的性能。

GRA 框架集成了 5 個參數量在 7–8B 之間的開源小型語言模型,包括 LLaMA-3.1-8B-Instruct、Qwen-2.5-7B-Instruct、InternLM3-8B-Instruct、Mistral-7B-Instruct-v0.3 和 Tulu-3-8B。

將 GRA 生成的數據用於訓練兩個基礎模型(LLaMA-3.1-8B-Base 和 Qwen-2.5-7B-Base),並與原始種子數據以及 Qwen-2.5-32B、Qwen-2.5-72B-Instruct 蒸餾生成的數據進行了系統對比。

實驗核心結果表明:

1.明顯優於原始數據 :GRA 生成的數據在 LLaMA-3.1 上平均提升了 6.18%,在 Qwen-2.5 上平均提升了 11.81%,說明即便在小模型之間協作,GRA 也能顯著提升數據質量和訓練效果。

2.能和大模型蒸餾正面硬剛 :GRA 在 LLaMA-3.1 生成數據訓練的模型性能,僅比 Qwen-72B 蒸餾版低 0.59%; 在 Qwen-2.5 生成數據訓練的模型性能,平均領先 Qwen-72B 蒸餾版達 8.83%。 表明小模型協同機制有望成為更低成本、更高性價比的大模型替代方案。

3.大模型“更大”≠更好 :實驗還發現,Qwen-72B 相比 32B 的性能增幅有限,反映出傳統蒸餾範式在進一步擴大參數規模時,收益正逐漸遞減。 相比之下,GRA 的「群體智慧」路徑更具擴展潛力。

一句話總結:多個小模型合理分工,也能「卷」出媲美甚至超越大模型的訓練效果。 這不僅節省算力,更可能重塑我們對“什麼才是有效數據合成”的認知。

要素分析:“1+1+1>3”

從數據多樣性、品質、難度控制等維度對 GRA 的優勢進行分析,發現以下關鍵因素:

1.數據多樣,補充盲區

通過 t-SNE 可視化對比發現,GRA 生成的數據分佈明顯比原始種子數據和大模型蒸餾數據更廣、更均勻,尤其在原始數據未覆蓋的語義空間中表現出良好的補充能力。 這表明 GRA 所產數據具備更強的覆蓋面和多樣性。

2.數據品質靠譜,審得細也審得穩

GRA 生成的數據不僅通過多個小模型評審,還在對比實驗中獲得了來自 Qwen-2.5-72B 的高分認可——其中超過 87.3%的樣本評分高度一致。

同時,GRA 的評分體系呈現出更平滑、細膩的分佈,表明其在數據質量評估中具備更強的解析度和一致性,驗證了其數據篩選機制的可靠性。

3.數據更“難啃”,訓練更有效

通過 Instruction-Following Difficulty(IFD)指標分析,GRA 生成數據的任務難度比種子數據高出 14.58%,並且與大模型蒸餾數據基本持平(GRA:75.82%,Qwen-72B 蒸餾:75.49%)。 這意味著 GRA 能夠構建具挑戰性、高知識密度的數據,為小模型提供更具張力的訓練樣本。

論文位址:https://arxiv.org/abs/2504.12322

專案位址:https://github.com/GX-XinGao/GRA

模型地址:https://huggingface.co/collections/GX-XinGao/gra-6801cba58ceb0074566cdb4e

本文來自微信公眾號 “量子位”,作者:GRA 團隊,36 氪經授權發佈。

+1
0

好文章,需要你的鼓勵

參與評論
評論千萬條,友善第一條
后參與討論
提交評論0/1000
36氪
36氪

下一篇

資本與情緒共舞盲盒之後是誰?

2025-06-17

36 氪 APP讓一部分人先看到未來
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业