五大AI聊天機器人盲測，ChatGPT未能奪冠，最終贏家竟來自這家“小公司”

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-05-29 09:56:28 騰訊網(wǎng)

近期，《華爾街日報》開展了一項全面的盲測，對比評估了當下五大AI聊天機器人：ChatGPT、Claude、Copilot、Gemini和Perplexity。這些機器人在解決實際問題和執(zhí)行日常任務(wù)的能力上接受了檢驗，以此反映它們在實際應(yīng)用場景中的性能。測試不僅考察了它們的準確性、實用價值，還有整體回答質(zhì)量，通過一系列精心設(shè)計的提示詞覆蓋了諸如編程挑戰(zhàn)、健康咨詢和財務(wù)規(guī)劃等多種常見需求。值得注意的是，這項測試特別采用了高級功能，包括OpenAI的ChatGPT GPT-4o模型和谷歌的Gemini 1.5 Pro，以期全面展現(xiàn)它們的潛力。

結(jié)果顯示，Perplexity在綜合評比中位居第一，ChatGPT緊跟其后，而微軟的Copilot表現(xiàn)最不理想。Perplexity尤其在總結(jié)、編程問題及時事資訊上展現(xiàn)出了卓越的能力，幾乎在所有單項測試中都進入了前三。這款由Perplexity AI公司開發(fā)的工具，因其在生成式AI搜索領(lǐng)域的革新，被譽為“谷歌殺手”，并且用戶量已突破1000萬，團隊規(guī)模卻保持精簡。

盡管ChatGPT更新后被寄予厚望，但它并未能在所有測試中領(lǐng)先，反而是較為冷門的Perplexity在多項測試中拔得頭籌。Anthropic的Claude在寫作任務(wù)上表現(xiàn)出色，但由于訪問限制和響應(yīng)速度慢，總排名下滑至第四。Copilot和Gemini則在測試中表現(xiàn)平平，尤其是Copilot在多個測試中墊底，經(jīng)常忽視關(guān)鍵信息。

在具體分類測試中，如健康建議、財務(wù)管理、烹飪指導(dǎo)、職場寫作、創(chuàng)意寫作、內(nèi)容總結(jié)、時事追蹤及代碼編寫等方面，各AI機器人表現(xiàn)各異。例如，Perplexity在總結(jié)和時事類問題上展現(xiàn)了強大的信息處理能力，而Copilot雖然在職場寫作中表現(xiàn)不佳，卻在創(chuàng)意寫作上找回了場子。Gemini在理財建議上給出了實用的指導(dǎo)，但面對健康問題時給出的意見略顯模糊。

測試還揭示了各機器人在速度上的差異，其中ChatGPT借助最新升級，響應(yīng)迅速，而Claude和Perplexity則顯得較為遲緩。

綜觀整個測試，雖然ChatGPT作為熱門產(chǎn)品并未占據(jù)絕對領(lǐng)先地位，但Perplexity的脫穎而出證明了專注于特定領(lǐng)域優(yōu)化同樣能帶來優(yōu)異成果，展示了AI聊天機器人領(lǐng)域內(nèi)多樣化的競爭格局與不斷進步的技術(shù)水平。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

五大AI聊天機器人盲測，ChatGPT未能奪冠，最終贏家竟來自這家“小公司”

相關(guān)新聞

今日熱點

頻道熱點

五大AI聊天機器人盲測，ChatGPT未能奪冠，最終贏家竟來自這家“小公司”