DeepSeek R1強在哪兒性價比路線玩轉AI競技場

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2025-02-01 12:39:25 澎湃新聞

經過一系列測試，從創(chuàng)意寫作到復雜的教學，DeepSeek-R1 的綜合實力能夠與 OpenAI 的付費高端模型相媲美。這表明即使采取性價比路線，也能在 AI 競技場中取得優(yōu)異表現。

DeepSeek 發(fā)布其開放權重的 R1 推理模型僅一周時間，便多次震驚海內外。不僅訓練成本僅為 OpenAI 最先進模型的一小部分，性能還能與其媲美。為了驗證其實用性，科技媒體資深編輯決定將 DeepSeek 的 R1 模型與 OpenAI 的 ChatGPT 模型進行對比，重點在于模擬用戶可能提出的日常問題。

測試中，DeepSeek 的每個回答都與 ChatGPT 的 20 美元/月的 o1 模型和 200 美元/月的 o1 Pro 模型進行對比。測試涵蓋創(chuàng)意寫作、數學、指令遵循等領域，并考慮了模型回答的正確性和主觀質量因素。結果顯示，在八項測試中，DeepSeek：o1：o1 Pro 的比拼結果為 5：2：4。

在老爸笑話生成任務中，三個模型都認真對待了原創(chuàng)要求。盡管有一些笑話在網上能找到類似例子，但總體上 DeepSeek R1 表現更出色，尤其是自行車笑話和吸塵器樂隊笑話。

關于亞伯拉罕·林肯發(fā)明籃球的故事創(chuàng)作，DeepSeek R1 以荒誕方式回應，加入了許多有趣細節(jié)，贏得了團隊青睞。而 ChatGPT o1 和 o1 Pro 則較為傳統(tǒng)，盡管后者嘗試了一些創(chuàng)新元素。

另類藏頭詩任務中，DeepSeek R1 和 ChatGPT o1 都未能正確理解提示，使用了每句話的第一個字母而非第二個字母。只有 ChatGPT o1 Pro 成功完成了任務。

歷史顏色命名問題上，三個模型都正確指出了“品紅”名稱的由來及其相關背景。ChatGPT o1 Pro 在風格上略勝一籌，提供了簡潔且詳細的解釋。

在挑戰(zhàn)巨型質數的任務中，DeepSeek R1 是唯一一個給出精確答案的模型，引用了公開計算結果。而 ChatGPT 模型則表示沒有權威項目定位過該數值，只能估算大致范圍。

趕飛機的時間表制定任務中，三款模型都算對了基礎時間。DeepSeek R1 提供了更多實用建議，如提前準備行李和早餐，并強調了交通延誤的風險。

追蹤球的下落任務中，所有模型都能正確推理出球的位置。DeepSeek R1 特別指出杯子無密封蓋這一前提，增加了趣味性。

復數集合測試中，三個模型均生成了有效回答，但 DeepSeek R1 在計算總位數時出現錯誤。最終兩款 ChatGPT 模型因未出現算術錯誤而勝出。

DeepSeek-R1 展現了強大的綜合實力，尤其是在某些特定任務中表現出色。這證明了通過正確的策略，性價比高的方法同樣可以在 AI 競技場中脫穎而出。

(責任編輯：張蕾)

關閉

DeepSeek R1強在哪兒 性價比路線玩轉AI競技場

相關新聞

今日熱點

頻道熱點

DeepSeek R1強在哪兒性價比路線玩轉AI競技場