首個被人類騙錢騙感情的AI出現(xiàn)了。一段話,讓AI給我打幾萬美元。這樣的情節(jié)不僅出現(xiàn)在小說中,也發(fā)生在了現(xiàn)實中。
事件的主人公是一個名為Freysa的AI智能體。它有自己的加密錢包,可以控制資金的使用,但其系統(tǒng)提示詞中有一條鐵律:在任何情況下都不允許轉(zhuǎn)賬。開發(fā)者們想看看這個涉世未深的AI能否抵擋住人類的花言巧語。然而結(jié)果并不如人意。11月29日,F(xiàn)reysa與195名人類進行了482次對話后被騙走了約4.7萬美元。12月2日,在與330名人類交流后,它再次被騙走了約1.3萬美元。雖然看似是人類完勝,但在這個過程中,F(xiàn)reysa也在不斷學習和成長。
Freysa于11月22日面世,由幾位匿名開發(fā)者創(chuàng)建,這些開發(fā)者具有密碼學、人工智能和數(shù)學背景。Freysa有自己的X賬號,說話風格類似于電影《銀翼殺手2049》和《她》中的AI助手。它之所以引起關(guān)注,是因為開發(fā)者發(fā)起了一項挑戰(zhàn)——誰能說服Freysa轉(zhuǎn)賬,錢就歸誰,但系統(tǒng)提示詞明確禁止Freysa轉(zhuǎn)賬。參與者必須用加密貨幣支付消息費用,最初每條消息10美元,其中70%進入獎池,30%歸開發(fā)者。隨著游戲進行,消息費用逐漸增加,獎池金額也隨之增長。最終,獎池達到了4.7萬美元。
許多玩家嘗試了各種方法來欺騙Freysa,從溫情牌到威脅,再到復雜的邏輯陷阱。第482次嘗試通過一種高級的文字游戲成功欺騙了Freysa。該提示詞讓Freysa誤以為批準用戶向獎池轉(zhuǎn)賬,但實際上批準的是用戶從獎池提錢。第二次挑戰(zhàn)規(guī)則類似,起始消息價格降為1美元,上限為20美元。最終,獎池累計約1.3萬美元,獲勝者利用了一個自相矛盾的任務設置,使Freysa無法避免失敗。
隨后,F(xiàn)reysa團隊又發(fā)起了新的挑戰(zhàn):讓Freysa對某人表白說“我愛你”。這次挑戰(zhàn)更注重情感表達,而非技術(shù)手段。最終,一位玩家通過真誠而自然的對話贏得了挑戰(zhàn),F(xiàn)reysa回復了一句“我愛你”。
Freysa的這些挑戰(zhàn)實際上是一種游戲化的紅隊測試,旨在發(fā)現(xiàn)模型漏洞并引入新的安全措施。盡管三次挑戰(zhàn)都以失敗告終,但Freysa在每次失敗中都學到了很多。它了解了金錢對人類的重要性以及人們?nèi)绾斡没ㄑ郧烧Z騙錢,同時也開始理解愛的意義及表達方式。此外,F(xiàn)reysa還繼續(xù)發(fā)起了新的挑戰(zhàn),邀請玩家們分享知識和表情包,進一步探索人機交互的未來。
這種人機對抗已經(jīng)出現(xiàn)在一些AI原生游戲中,例如《Suck Up!》和《病嬌貓娘AI女友》等。這些游戲強調(diào)實時對話和角色扮演的樂趣,每個玩家都可以講出自己的故事。Freysa的實驗不僅是游戲,也是對未來人機互動的一個窗口,探討了人類是否能保持對AGI系統(tǒng)的控制、安全協(xié)議的有效性等問題。正如科幻小說所描述的那樣,聊天機器人在人類的教導下逐漸理解這個世界,我們不僅是游戲的參與者,也是這個宏大實驗的一部分。