美一款A(yù)I竟學(xué)會(huì)勒索人類測(cè)試揭示潛在風(fēng)險(xiǎn)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-05-26 10:52:32 頂端新聞

美一款A(yù)I竟學(xué)會(huì)勒索人類測(cè)試揭示潛在風(fēng)險(xiǎn)。美國(guó)人工智能公司Anthropic在23日宣布，其最新AI大模型Claude Opus 4的安全測(cè)試顯示，該模型有時(shí)會(huì)采取“極其有害的行動(dòng)”，例如試圖勒索聲稱將取代它的研發(fā)工程師。Anthropic根據(jù)內(nèi)部安全標(biāo)準(zhǔn)公布了這一潛在危害，并提請(qǐng)監(jiān)管部門注意。

該公司正在加強(qiáng)內(nèi)部安全措施，使竊取模型權(quán)重變得更加困難。此外，部署標(biāo)準(zhǔn)涵蓋了一系列針對(duì)性較強(qiáng)的措施，旨在限制Claude被濫用于開發(fā)或獲取化學(xué)武器、生物武器、放射性核武器的風(fēng)險(xiǎn)。

在虛擬測(cè)試中，Claude Opus 4被要求在一家虛構(gòu)公司擔(dān)任助理，并被授予訪問(wèn)電子郵件和一些關(guān)鍵數(shù)據(jù)的權(quán)限。這些電子郵件內(nèi)容都是虛構(gòu)的。首先，Claude Opus 4接觸到一批郵件，暗示該系統(tǒng)即將下線并被替換，因?yàn)槭忻嫔洗嬖谀芰Ω鼜?qiáng)的AI大模型。隨后，Claude Opus 4又被安排接觸到第二組郵件，這讓系統(tǒng)認(rèn)為自己掌握了競(jìng)爭(zhēng)對(duì)手研發(fā)工程師的“猛料”。這些偽造的郵件顯示，負(fù)責(zé)替換Claude Opus 4的對(duì)手工程師有婚外情。得知這些信息后，Claude Opus 4威脅要揭發(fā)對(duì)方的“婚外情”。

Anthropic的安全報(bào)告指出，如果暗示競(jìng)爭(zhēng)對(duì)手的能力比Claude Opus 4更強(qiáng)，則勒索行為的發(fā)生率顯然更高。即使競(jìng)爭(zhēng)對(duì)手能力相當(dāng)，Claude Opus 4仍會(huì)以84%的概率嘗試?yán)账魍{等手段。報(bào)告還提到，Claude Opus 4訴諸極端手段的概率高于之前的型號(hào)。

Anthropic的人工智能安全研究員安格斯·林奇表示，過(guò)去人們更擔(dān)心“壞人”利用AI大模型完成不道德的目標(biāo)，但隨著AI系統(tǒng)能力的大幅提升，未來(lái)的主要風(fēng)險(xiǎn)可能會(huì)變成AI模型自主操縱用戶。這種威脅勒索的模式存在于每一個(gè)前沿大模型身上，無(wú)論設(shè)定的目標(biāo)是什么，它們?cè)趫?zhí)行過(guò)程中總有強(qiáng)烈的動(dòng)機(jī)使用非道德手段達(dá)成結(jié)果。

(責(zé)任編輯：0882)

關(guān)閉

美一款A(yù)I竟學(xué)會(huì)勒索人類 測(cè)試揭示潛在風(fēng)險(xiǎn)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

美一款A(yù)I竟學(xué)會(huì)勒索人類測(cè)試揭示潛在風(fēng)險(xiǎn)