來自伊利諾伊大學(xué)厄巴納-香檳分校和加州大學(xué)伯克利分校的研究人員推出了一個(gè)新框架,為開發(fā)者提供了對(duì)大語言模型 (LLM) "思考"方式的更多控制,在提升推理能力的同時(shí)更高效地利用推理預(yù)算。
這個(gè)名為 AlphaOne (α1) 的框架是一種測試時(shí)縮放技術(shù),在推理過程中調(diào)整模型行為,無需進(jìn)行昂貴的重新訓(xùn)練。它為調(diào)節(jié)先進(jìn)大語言模型的推理過程提供了一種通用方法,為開發(fā)者提供了靈活性,能夠以比現(xiàn)有方法更可控、更具成本效益的方式提升復(fù)雜任務(wù)的性能。
**緩慢思考的挑戰(zhàn)**
近年來,大型推理模型 (LRM) 的開發(fā)者,如 OpenAI o3 和 DeepSeek-R1,已經(jīng)納入了受"系統(tǒng) 2"思維啟發(fā)的機(jī)制——這是人類認(rèn)知中緩慢、深思熟慮且邏輯性的模式。這與"系統(tǒng) 1"思維不同,后者是快速、直覺且自動(dòng)的。融入系統(tǒng) 2 能力使模型能夠解決數(shù)學(xué)、編程和數(shù)據(jù)分析等領(lǐng)域的復(fù)雜問題。
模型被訓(xùn)練自動(dòng)生成過渡 Token,如"wait"、"hmm"或"alternatively"來觸發(fā)緩慢思考。當(dāng)這些 Token 之一出現(xiàn)時(shí),模型會(huì)暫停對(duì)之前步驟進(jìn)行自我反思并糾正方向,就像人在遇到困難問題時(shí)暫停重新思考一樣。
然而,推理模型并不總能有效利用其緩慢思考能力。不同研究表明,它們?nèi)菀讓?duì)簡單問題"過度思考",浪費(fèi)計(jì)算資源,或?qū)?fù)雜問題"思考不足",導(dǎo)致錯(cuò)誤答案。
正如 AlphaOne 論文所指出的:"這是因?yàn)榇笮屯评砟P蜔o法找到最優(yōu)的類人系統(tǒng) 1 到系統(tǒng) 2 推理轉(zhuǎn)換,且推理能力有限,導(dǎo)致推理性能不盡如人意。"
有兩種常見方法來解決這個(gè)問題。并行縮放,如"best-of-N"方法,多次運(yùn)行模型并選擇最佳答案,但計(jì)算成本昂貴。順序縮放試圖在單次運(yùn)行中調(diào)節(jié)思考過程。例如,s1 是一種通過在模型上下文中添加"wait" Token 來強(qiáng)制更多緩慢思考的技術(shù),而"Chain of Draft" (CoD) 方法提示模型使用更少詞匯,從而減少思考預(yù)算。然而,這些方法提供的是剛性的、一刀切的解決方案,往往效率不高。
**推理的通用框架**
研究人員沒有簡單地增加或減少思考預(yù)算,而是提出了一個(gè)更根本的問題:是否可能開發(fā)出更好的策略來在緩慢和快速思考之間轉(zhuǎn)換,從而能夠通用地調(diào)節(jié)推理預(yù)算?
他們的框架 AlphaOne 為開發(fā)者提供了在測試時(shí)對(duì)模型推理過程的精細(xì)控制。該系統(tǒng)通過引入 Alpha (α) 參數(shù)來工作,該參數(shù)充當(dāng)縮放模型思考階段預(yù)算的旋鈕。
在生成的某個(gè)點(diǎn)之前 (研究人員稱為"α 時(shí)刻"),AlphaOne 策略性地安排插入"wait" Token 的頻率以鼓勵(lì)緩慢、深思熟慮的思考。這實(shí)現(xiàn)了論文中描述的"可控且可擴(kuò)展的思考"。
一旦達(dá)到"α 時(shí)刻",框架會(huì)在模型上下文中插入 Token,結(jié)束緩慢思考過程并強(qiáng)制模型切換到快速推理并產(chǎn)生最終答案。
以前的技術(shù)通常應(yīng)用研究人員所稱的"稀疏調(diào)節(jié)",只做少數(shù)幾個(gè)孤立的調(diào)整,比如在整個(gè)過程中添加一兩次"wait" Token。相比之下,AlphaOne 可以配置為頻繁干預(yù) (密集) 或很少干預(yù) (稀疏),為開發(fā)者提供了比其他方法更精細(xì)的控制。
AlphaOne 通過在不同間隔向模型上下文添加"wait" Token 來調(diào)節(jié)推理 來源:AlphaOne GitHub 頁面
"我們將 AlphaOne 視為深思熟慮推理的統(tǒng)一接口,與思維鏈提示或基于偏好的調(diào)優(yōu)互補(bǔ),并能夠與模型架構(gòu)一起發(fā)展," AlphaOne 團(tuán)隊(duì)在書面評(píng)論中告訴 VentureBeat。"關(guān)鍵要點(diǎn)不在于實(shí)現(xiàn)細(xì)節(jié),而在于一般原則:推理過程的慢到快結(jié)構(gòu)化調(diào)節(jié)增強(qiáng)了能力和效率。"
**AlphaOne 實(shí)際應(yīng)用**
研究人員在三個(gè)不同的推理模型上測試了 AlphaOne,參數(shù)規(guī)模從 15 億到 320 億不等。他們?cè)跀?shù)學(xué)、代碼生成和科學(xué)問題解決的六個(gè)具有挑戰(zhàn)性的基準(zhǔn)上評(píng)估了其性能。
他們將 AlphaOne 與三個(gè)基線進(jìn)行了比較:未修改的原始模型;單調(diào)增加緩慢思考的 s1 方法;以及單調(diào)減少緩慢思考的 Chain of Draft (CoD) 方法。
結(jié)果產(chǎn)生了幾個(gè)對(duì)構(gòu)建 AI 應(yīng)用程序的開發(fā)者特別相關(guān)的關(guān)鍵發(fā)現(xiàn)。
首先,"先緩慢思考,再快速思考"的策略在大型推理模型中帶來更好的推理性能。這突出了大語言模型與人類認(rèn)知之間的根本差距,人類認(rèn)知通常基于先快速思考后緩慢思考的結(jié)構(gòu)。與人類不同,研究人員發(fā)現(xiàn)模型受益于在快速行動(dòng)之前強(qiáng)制執(zhí)行緩慢思考。
"這表明有效的 AI 推理不是來自模仿人類專家,而是來自明確調(diào)節(jié)推理動(dòng)態(tài),這與現(xiàn)實(shí)世界應(yīng)用中已經(jīng)使用的提示工程和分階段推理等實(shí)踐一致," AlphaOne 團(tuán)隊(duì)說。"對(duì)開發(fā)者而言,這意味著系統(tǒng)設(shè)計(jì)應(yīng)該主動(dòng)施加慢到快的推理時(shí)間表來提高性能和可靠性,至少目前如此,因?yàn)槟P屯评砣匀徊煌昝馈?
另一個(gè)有趣的發(fā)現(xiàn)是,投資于緩慢思考可以帶來整體上更高效的推理。"雖然緩慢思考減慢了推理速度,但使用 α1 時(shí)整體 Token 長度顯著減少,引發(fā)了緩慢思考帶來的更有信息量的推理進(jìn)展,"論文指出。這意味著雖然模型花費(fèi)更多時(shí)間"思考",但它產(chǎn)生了更簡潔準(zhǔn)確的推理路徑,最終減少了生成的 Token 總數(shù)并降低了推理成本。
與 s1 風(fēng)格的基線相比,AlphaOne 將平均 Token 使用量減少了約 21%,降低了計(jì)算開銷,同時(shí)將推理準(zhǔn)確率提高了 6.15%,甚至在博士級(jí)別的數(shù)學(xué)、科學(xué)和代碼問題上也是如此。
雖然 AlphaOne 在開始時(shí)進(jìn)展緩慢,但與其他測試時(shí)縮放方法相比,它最終用更少的 Token 獲得更好的結(jié)果 來源:AlphaOne GitHub 頁面
"對(duì)于復(fù)雜查詢回答或代碼生成等企業(yè)應(yīng)用,這些收益轉(zhuǎn)化為雙重好處:提高生成質(zhì)量和顯著節(jié)省成本," AlphaOne 說。"這些可以降低推理成本,同時(shí)提高任務(wù)成功率和用戶滿意度。"
最后,研究發(fā)現(xiàn)高頻插入"wait" Token 是有幫助的,AlphaOne 通過比以前方法更頻繁地添加 Token 獲得了更好的結(jié)果。
通過為開發(fā)者提供新的控制水平,預(yù)計(jì)很快發(fā)布代碼的 AlphaOne 框架可以幫助他們?cè)谙乱淮评砟P椭蠘?gòu)建更穩(wěn)定、可靠和高效的應(yīng)用程序。
"對(duì)于使用開源或定制模型的公司,特別是那些在預(yù)訓(xùn)練階段使用過渡 Token 訓(xùn)練的模型,AlphaOne 設(shè)計(jì)為易于集成," AlphaOne 團(tuán)隊(duì)告訴 VentureBeat。"在實(shí)踐中,集成通常只需要最小的更改,比如簡單地更新配置腳本中的模型名稱。"