OpenAI全新推理模型o1 - 超越博士生的推理能力

AI工具愛好者，擅長寫作，對 AI 寫作領域及AI工具使用有著獨特的見解。

2025/01/08 3分鐘閱讀

OpenAI於9月13日發佈了用於解決難題的全新推理模型o1。o1模型可將複雜的推理分步進行，在數學、程式設計和科學領域的相關問題的測試對比上一模型ChatGPT-4o有了長足的進步；而o1具備的關聯思考能力（COT）讓o1在許多複雜的推理任務測試中表現超群，甚至表現出超越人類博士的能力表現。

Open AI新AI模型o1

一、o1亮點

代號為Strawberry的生成式AI在9月13日的OpenAI發佈會上被正式命名為o1。

1強大的推理能力

o1模型的一大亮點是能夠進行分步複雜推理，思維鏈能力（COT）實現了結構化推理，將單個任務拆解成多個簡單任務，提升了回答的邏輯性。o1在回答複雜問題時，會逐步解釋每一步的推理過程，而不是直接給出答案，使模型在回答問題時就像是人類在解題時，先思考每一步的邏輯，再逐步推導出最終的結果，例如偵測律師收件匣中的特權電子郵件或集思廣益產品行銷策略。

2獨特的訓練方式

o1是使用一種全新的優化演算法和專門為其定制的新訓練數據集進行訓練的（使用RL訓練模型，最終更好地執行思維鏈思考）。這種新的訓練方法，使得模型更加準確，並且研究人員表示該模型的“幻覺”（即生成看似合理但不正確或荒謬的答案）更少。

OpenAI 的研究科學家 Noam Brown 在一系列推文中表示：“o1 經過強化學習訓練，能夠在通過私人思維鏈做出反應之前進行‘思考’。它思考的時間越長，它在推理任務上的表現就越好。”

3o1缺點

然而，o1的思考時間也可能會成為它的缺點之一，與其他AI模型相比，o1的反應時間可能會比較慢。另外，o1目前為純文本模型，僅支援針對特定的檔案進行推理或從網路收集即時資訊的能力。最後，即使是有試用o1權限的用戶，也會收到每週30次試用o1-preview及50次試用o1-mini的限制。

二、o1與其他AI模型對比

o1在數學、程式設計、科學領域的能力大幅提升，其成就之上均勝過過去最優異的 Claude 3.5 Sonnet。科學問答環節超過人類博士水準。具體而言，在程式設計能力方面，o1在Codeforces程式設計競賽上超過了83%的專業人員。在數學競賽方面，以AIME 2024為例，GPT-4o平均只能解決12%的問題，而o1平均能解決74%的問題，若採用64個樣本的共識，解決率能達到83%。而在科學能力方面，對於博士級科學問題（GPQA Diamond），GPT-4o的精確度為56.1，人類專家的水準是69.7，而o1達到了78。o1是目前第一個在GPQA科學測試中超越人類博士的AI模型。

GPQA測試結果

數據顯示，在2024年美國中學生數學邀請賽和Codeforces編程競賽上，o1-preview解決數學和程式設計問題的能力相較GPT-4o提高了5至6倍；更令人驚訝的是，真正版本的o1比GPT-4o的提升高達8至9倍。數據還顯示，在GPQA-diamond（一個測試化學、物理和生物學專業知識的高難度智能基準）測試上，o1-preview和o1均顯著超過了GPT-4o，最關鍵的是超越了人類專家。

ChatGPT o1跟其他版本對比

三、o1體驗方式及價格

從9月13日起，ChatGPT Plus（進階版）和Team（團隊版）用戶可以在ChatGPT中訪問o1模型。o1-preview和 o1-mini均可在ChatGPT的模型選擇器中以手動選擇的方式使用。目前o1-preview每週消息限制為30條，o1-mini每週消息限制為50條。

OpenAI正在努力提高o1的消息限制，並且讓ChatGPT根據用戶的提示內容自動選擇合適的AI模型。ChatGPT Enterprise（企業）和Edu（教育）版用戶將從下周開始獲得這兩個模型的訪問許可權。此外，OpenAI還計畫為所有ChatGPT免費用戶開放o1-mini的訪問許可權。

費用：與之前發佈的GPT-4o相比，o1更貴。通過API使用o1-preview，匯入每百萬token要收費15美元，匯出每百萬token收費60美元；而GPT-4o的百萬token匯入收費只有5美元，匯出為15美元（100萬個token即模型解析文字塊的規模大小，相當於大約75萬個單詞）。換言之，o1的使用成本是GPT-4o的三到四倍。

ChatGPT o1試用