龍蝦之父推薦了兩款國產(chǎn)模型 PinchBench榜單引關(guān)注。龍蝦太火,所有人都想一試。但真到了上手環(huán)節(jié)就會遇到難題——究竟哪個模型最適合OpenClaw呢?別急,龍蝦之父推薦了一個有趣的榜單:PinchBench。這個榜單專為龍蝦而設(shè),從成功率、速度、價格等維度評估全球大模型對OpenClaw的適配程度,并且實時更新。
今年2月底,PinchBench就已經(jīng)出現(xiàn),現(xiàn)在更受歡迎了。這不僅因為有龍蝦之父的推薦,更重要的是中國模型的表現(xiàn)確實出色。前排國產(chǎn)模型在榜單中的表現(xiàn)非常搶眼。
熟悉龍蝦的人都知道,選擇合適的模型非常重要。一方面,龍蝦消耗token成本高;另一方面,速度也不能太慢,以免影響用戶體驗。因此,人們在價格和速度之間艱難權(quán)衡。PinchBench則直接告訴你答案,按照成功率、速度、價格這三個基本維度對全球模型進(jìn)行排名,使得哪個模型更擅長什么一目了然。
截至發(fā)稿前,榜單具體情況如下:整體而言,中國模型在成功率和速度方面表現(xiàn)出色,但在價格方面稍遜一籌。比成功率,除了第一名谷歌Gemini 3 Flash,第二、第三名都出自國內(nèi)。具體排名如下: - 第一名(Gemini 3 Flash):成功率95.1% - 第二名(MiniMax M2.1):成功率93.6% - 第三名(Kimi K2.5):成功率93.4%
值得注意的是,MiniMax用的還不是它家最新模型MiniMax M2.5。比速度,國產(chǎn)模型MiniMax M2.5更是超越了Gemini、Llama等模型,登上榜首。MiniMax M2.5在SWE-Bench Verified測試中,完成任務(wù)的速度較上一代M2.1提升了37%,端到端運行時間縮短至22.8分鐘,與Claude Opus 4.6持平。然而,在價格方面,國產(chǎn)模型與OpenAI、谷歌模型相比缺乏優(yōu)勢。例如,GPT-5-nano輸入價格低至0.05美元/百萬tokens,輸出價格低至0.40美元/百萬tokens,而國產(chǎn)模型中最便宜的MiniMax M2.1,輸入價格為2.1元/百萬tokens(約0.3美元/百萬tokens),輸出價格為8.4元/百萬tokens(約1.2美元/百萬tokens),平均下來幾乎是前者的3倍。
如果要在成功率和價格之間取得最佳平衡,可以參考左上角方框圈選出的幾個不錯模型,其中有4個是中國模型。
那么,這份榜單靠譜嗎?背后的篩選機(jī)制又是什么?
簡單來說,PinchBench并不是某家大廠推出的標(biāo)準(zhǔn)Benchmark,而是來自一支做Agent基礎(chǔ)設(shè)施的創(chuàng)業(yè)團(tuán)隊Kilo AI。這支團(tuán)隊由GitLab前聯(lián)合創(chuàng)始人兼CEO Sid Sijbrandij投資并參與創(chuàng)立,曾推出爆火“氛圍編程”工具Kilo Code。年初龍蝦爆火后,他們順勢推出了基于OpenClaw構(gòu)建的全托管智能體平臺KiloClaw,同時發(fā)布了PinchBench這一智能體框架評測工具。
PinchBench主要用來測試不同大模型在真實工作流中的執(zhí)行能力,包含23個真實任務(wù)的測試,如查詢并整理資料、寫郵件或生成報告、調(diào)用API完成操作等。評分機(jī)制采用自動化檢查加LLM評審的方式,最終統(tǒng)計的核心指標(biāo)是任務(wù)完成率、完成速度和推理成本。
由于評測方式偏向真實任務(wù)流程,在PinchBench的排行榜上,更大的模型并不總是制勝之道。那些偏Agent優(yōu)化或推理效率更高的模型反而排名靠前。這一點也是PinchBench最近被頻繁討論的原因之一。此外,PinchBench完全開源,用戶也可以在平臺上自行運行或添加新任務(wù)。如果以后不知道怎么選模型,不妨自己動手一試。
近日,騰訊的SkillHub正式上線。有消息稱,騰訊正在從Clawhub抓取技能并導(dǎo)入新平臺
2026-03-12 17:39:14騰訊回應(yīng)被龍蝦之父指責(zé)抄襲近日,全球人工智能領(lǐng)域接連迎來重要進(jìn)展
2026-01-31 16:42:15國產(chǎn)開源世界模型來了評測機(jī)構(gòu)ClawBench發(fā)布了最新大型模型榜單。北京的人工智能企業(yè)智譜、字節(jié)和小米共有四款模型躋身全球前十
2026-03-31 15:32:10小米字節(jié)等四款模型躋身全球前十