蘋果炮轟AI推理模型:全是假思考 模式匹配非真思考。蘋果近日發(fā)布了一篇研究論文,指出包括DeepSeek、o3-mini和Claude 3.7在內(nèi)的推理模型并未真正進(jìn)行思考,所謂的思考實(shí)際上只是模式匹配。為了更客觀地測(cè)試這些模型的推理能力,研究人員設(shè)計(jì)了四類謎題環(huán)境:漢諾塔、跳棋交換、過河問題和積木世界。這些謎題的難度可以精確控制。
隨著問題難度增加,推理模型最初會(huì)延長(zhǎng)思考時(shí)間,但隨后思考深度反而下降。即使仍有充足的token預(yù)算,它們?cè)谧钚枰钊胨伎紩r(shí)卻選擇了放棄。當(dāng)問題復(fù)雜度繼續(xù)增加并超過某個(gè)臨界點(diǎn)時(shí),無論是推理模型還是標(biāo)準(zhǔn)模型都會(huì)經(jīng)歷完全的性能崩潰,準(zhǔn)確率直線下降至零。
對(duì)此,有網(wǎng)友諷刺稱:“蘋果擁有最多的資金,兩年來也沒有拿出像樣的成果,現(xiàn)在自己落后了,卻來否定別人的成果。”據(jù)報(bào)道,Apple Intelligence在2024年的WWDC上正式亮相。在過去的一年里,蘋果宣傳中的許多功能都經(jīng)歷了延期、不夠完善甚至被下架。不過也有人認(rèn)為,這篇論文并非完全消極,而是呼吁設(shè)立更好的推理機(jī)制和評(píng)估辦法。
當(dāng)?shù)貢r(shí)間1月31日,OpenAI推出了推理模型o3-mini,這是其推理系列中最新且最具成本效益的版本,現(xiàn)已可在ChatGPT和API中使用
2025-02-01 12:11:46OpenAI上線o3-mini