GPT-4通過圖靈測試,勝率高達(dá)54%!UCSD新作:人類無法認(rèn)出GPT-4
近期,一項由加州大學(xué)圣地亞哥分校認(rèn)知科學(xué)系的研究揭示了一個引人注目的發(fā)現(xiàn):GPT-4在圖靈測試中的表現(xiàn)讓人難以將其與人類區(qū)分開來。這項研究的論文已發(fā)布在網(wǎng)絡(luò)上,鏈接為[此處省略具體鏈接]。結(jié)果顯示,在測試場景下,GPT-4有54%的幾率被誤認(rèn)為是人類,這一成就標(biāo)志著首次有系統(tǒng)在雙人互動式的圖靈測試框架內(nèi)得到實證性通過。
實驗設(shè)計精巧,涉及500名志愿者,他們扮演不同角色,包括評估GPT-4、GPT-3.5、早期的ELIZA程序以及真實人類的對話,試圖辨別哪一方是人工智能,哪一方是真人。這項研究不僅考驗了GPT-4的模擬人類對話的能力,也探討了評判者識別能力的界限。
以往的圖靈測試嘗試多未經(jīng)過嚴(yán)格控制,而本研究通過精心設(shè)計,力求提供一個受控環(huán)境來評估現(xiàn)代人工智能的進(jìn)展。盡管有人擔(dān)憂這可能歸因于評判者的過分信任(即ELIZA效應(yīng)),但實驗同時也納入了ELIZA作為基線參照,以量化并校驗這一效應(yīng)。
研究數(shù)據(jù)顯示,GPT-4的通過率超越了ELIZA和GPT-3.5,盡管仍低于人類對照組,但它能在50%的隨機機會之上被誤判為人類,暗示了在特定情境下,人類判斷與機器生成的對話之間界限模糊。有趣的是,自認(rèn)為對AI機制有所了解的參與者并未展現(xiàn)出更高的識別準(zhǔn)確率,反而年齡成為影響判斷準(zhǔn)確性的因素之一,年輕參與者在這方面似乎不如年長者。GPT-4通過圖靈測試,勝率高達(dá)54%!UCSD新作:人類無法認(rèn)出GPT-4。
分析評估者的策略時,發(fā)現(xiàn)那些傾向于詢問個人經(jīng)歷、進(jìn)行邏輯推理或直接質(zhì)疑對方身份的策略相對更為有效。然而,大多數(shù)評估者偏向于關(guān)注對話中的社交情感層面,反映出普遍認(rèn)為AI難以模仿復(fù)雜社會智能的觀念。盡管如此,GPT-4在某些情況下仍能成功“騙過”人類,特別是當(dāng)它展現(xiàn)自然反應(yīng)和個性化特質(zhì)時。
最近,OpenAI的舉動令人捉摸不透,先是預(yù)告將在5月13日舉辦發(fā)布會,緊接著澄清并非公布GPT-5或傳聞中的GPT搜索引擎,而是關(guān)于ChatGPT和GPT-4的升級
2024-05-12 07:54:36奧特曼耍所有人:GPT搜索鴿了!改升級GPT-4全球正經(jīng)歷著廣泛的高溫天氣,美國同樣身陷其境,超過三分之一的民眾受到了近期熱浪預(yù)警的影響。熱浪從加州延伸至南佛羅里達(dá)州,大面積區(qū)域持續(xù)遭受高溫炙烤
2024-06-24 16:16:23美國死亡谷國家公園氣溫最高達(dá)54℃