今天AI領(lǐng)域非常熱鬧,OpenAI發(fā)布了GPT5.5,DeepSeek也終于推出了v4版本。與此同時,Anthropic發(fā)布了一份聲明,承認(rèn)Claude Code確實存在性能下降的問題,并解釋了背后的原因。
從今年3月開始,一些用戶在Hacker News和Reddit等社區(qū)反映Claude Code變得越來越慢、越來越笨,甚至無法處理復(fù)雜的工程任務(wù)。面對這些反饋,Claude Code的工程負(fù)責(zé)人Boris Cherny在GitHub上回應(yīng)稱,他們進(jìn)行了一些UI層面的調(diào)整,但不應(yīng)影響模型的核心功能。然而,用戶的不滿并未因此緩解。
直到近日,Anthropic正式回應(yīng)了這些問題。官方表示,問題主要源于Claude Code和Agent SDK的運行框架(Harness),而Cowork也是基于該SDK運行,所以同樣受到影響。實際上,模型本身的能力并未退化,Claude API也未受到影響。
具體來說,問題有以下幾點:
1. 3月4日,Anthropic將Claude Code的默認(rèn)推理強(qiáng)度從“high”調(diào)整為“medium”,以減少部分用戶遇到的超長延遲。但這一調(diào)整被證明是錯誤的權(quán)衡。4月7日,Anthropic撤回了這一改動,但這次調(diào)整影響了Sonnet 4.6和Opus 4.6版本。
2. 3月26日,Anthropic優(yōu)化了會話閑置時的清理邏輯,對超過一小時未使用的會話,在用戶重新進(jìn)入時清理舊的“思考”內(nèi)容。但出現(xiàn)了一個Bug,導(dǎo)致每一輪對話中都會持續(xù)觸發(fā)清理操作,使Claude看起來“持續(xù)失憶、健忘且重復(fù)”。4月10日,Anthropic修復(fù)了這個問題,但也影響了Sonnet 4.6和Opus 4.6版本。
3. 4月16日,Anthropic在系統(tǒng)提示詞中加入了一條“降低冗長度”的指令,限制了工具調(diào)用之間的文本長度。然而,這一調(diào)整反而損害了代碼任務(wù)的表現(xiàn),限制了模型在處理復(fù)雜任務(wù)時的思考深度。4月20日,Anthropic撤回了這一變更,但仍影響了Sonnet 4.6、Opus 4.6以及Opus 4.7版本。
Anthropic還表示,這些改動分別在不同時間、作用于不同用戶流量切片,疊加起來的整體效果表現(xiàn)為廣泛且不一致的性能下降。盡管從3月初就開始調(diào)查相關(guān)反饋,但最初這些問題很難與正常的用戶反饋波動區(qū)分開來,內(nèi)部使用情況和評測也未能第一時間復(fù)現(xiàn)這些問題。
為了表示歉意,Anthropic宣布截至4月23日,將重置所有訂閱用戶的使用限額。此外,公司還將采取多項改進(jìn)措施,包括確保更大比例的內(nèi)部員工直接使用與用戶一致的Claude Code公共版本,改進(jìn)內(nèi)部使用的代碼審查工具,并將其提供給用戶。同時,強(qiáng)化系統(tǒng)提示詞的評估流程,引入更嚴(yán)格的控制和更廣泛的測試,確保模型特定的改動只作用于對應(yīng)模型。對于可能影響模型智能水平的變更,將引入更長的觀察期和更細(xì)致的灰度發(fā)布,以便更早發(fā)現(xiàn)問題。
Anthropic此次正視問題的態(tài)度得到了用戶的認(rèn)可,大家認(rèn)為這種積極應(yīng)對的方式是有效的。你對此有何看法?歡迎留言交流。