Anthropic如何打造憲法式人工智能安全至上的理念

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-03-31 17:52:02 礪石商業(yè)評論

2026年2月，硅谷發(fā)生了兩件令人震驚的新聞。Anthropic的安全負(fù)責(zé)人突然辭職，并警告“世界處于危險(xiǎn)之中”。幾乎同時(shí)，五角大樓要求該公司解除其王牌模型Claude的核心安全限制，但遭到拒絕。這兩件事從不同方向拉扯著名為“AI安全”的韁繩，而這正是Anthropic存在的全部理由。

時(shí)間倒回2021年，出于對AI失控的深切恐懼，前OpenAI高管達(dá)里奧·阿莫迪與負(fù)責(zé)安全政策的妹妹丹妮拉帶領(lǐng)七名同事出走，創(chuàng)立了Anthropic。他們的核心命題只有一個(gè)：如何控制比人類更聰明的AI。短短四年間，公司估值飆升至3800億美元，客戶名單囊括全球頂級企業(yè)。然而，國家力量的介入使這家曾經(jīng)為防范風(fēng)險(xiǎn)而生的公司陷入自設(shè)的困局。

達(dá)里奧和丹妮拉出生于一個(gè)意大利裔家庭，父親是一位精通各類皮料的工匠，母親在圖書館工作。兄妹二人自幼成績優(yōu)異，畢業(yè)后卻走上截然不同的人生道路。達(dá)里奧早年就讀于加州理工，中途轉(zhuǎn)至斯坦福取得物理學(xué)學(xué)士學(xué)位，隨后在普林斯頓獲得生物物理學(xué)博士學(xué)位。他最初的研究與AI無關(guān)，直到2013年前后，隨著深度學(xué)習(xí)浪潮興起，他憑借頂尖的學(xué)術(shù)背景加入百度參與Deep Speech 2.0語音識別項(xiàng)目，隨后轉(zhuǎn)投Google Brain，確立了自己在AI領(lǐng)域的核心方向。

相比之下，丹妮拉的發(fā)展更為非典型。她憑借古典長笛獎(jiǎng)學(xué)金，在加州大學(xué)圣克魯茲分校攻讀英語文學(xué)學(xué)位，畢業(yè)后進(jìn)入公共事務(wù)領(lǐng)域，積累了豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。隨后她轉(zhuǎn)向科技行業(yè)，成為金融科技公司Stripe的早期員工。外界這樣概括兄妹倆的角色：達(dá)里奧猶如眺望地平線的“望遠(yuǎn)鏡”，丹妮拉則是夯實(shí)地基的“建筑師”。

2016年，達(dá)里奧離開Google Brain加入OpenAI，妹妹丹妮拉于2018年跟隨而來。接下來的五年，達(dá)里奧主導(dǎo)了GPT-2和GPT-3的開發(fā)，成為技術(shù)方向上最有分量的人之一。然而，隨著GPT-3的開發(fā)，裂痕開始公開化。達(dá)里奧認(rèn)為必須放慢更新速度以防止惡意使用，而奧特曼則主張快速迭代、盡快商業(yè)化。最終，達(dá)里奧與妹妹丹妮拉及其他七人離開OpenAI，成立了Anthropic。

Anthropic成立之初，被質(zhì)疑最多的是與OpenAI有何不同。兩者根本區(qū)別在于對人工智能構(gòu)建體系的排序。OpenAI選擇了“性能優(yōu)先，安全迭代”，而Anthropic則堅(jiān)持“安全第一，功能殿后”。這意味著當(dāng)用戶的請求與“不造成損害”的核心原則相沖突時(shí)，Anthropic的模型會啟動內(nèi)置的審查機(jī)制，選擇拒絕響應(yīng)。這種設(shè)計(jì)并不符合用戶期待，但也讓Anthropic得到了很多差評。然而，達(dá)里奧及團(tuán)隊(duì)并不在意，他們將這套邏輯做成了一個(gè)叫“Constitutional AI”的方法論，即通過創(chuàng)造一套明確的價(jià)值觀原則，讓AI用這套原則評判和修正自己的輸出。

Anthropic的成功在于精準(zhǔn)押注企業(yè)級市場，而非個(gè)人用戶。創(chuàng)立僅四年時(shí)間，近80%的收入來源于企業(yè)客戶。在《財(cái)富》全球500強(qiáng)中排名前十的巨頭里，有八家已是Claude的付費(fèi)用戶。這些企業(yè)需要一個(gè)能無縫嵌入核心業(yè)務(wù)流程、行為絕對可預(yù)測、輸出極端穩(wěn)定、權(quán)責(zé)清晰無誤的“專業(yè)工具”。Anthropic將這種“可信”的承諾轉(zhuǎn)化為可被精確度量與驗(yàn)證的性能指標(biāo)。例如，在衡量AI“虛構(gòu)事實(shí)”傾向的核心測試中，Claude 3.5 Sonnet的表現(xiàn)顯著優(yōu)于行業(yè)基準(zhǔn)GPT-4。

然而，商業(yè)擴(kuò)張的壓力逐漸壓過了Anthropic曾經(jīng)倡導(dǎo)的“安全至上”初心。2026年2月9日，Anthropic的安全負(fù)責(zé)人Sharma辭職離任，留下一句簡短卻沉重的警告：“世界處于危險(xiǎn)之中?！迸c此同時(shí)，公司官網(wǎng)上的“安全承諾”被悄然修改，替換為一個(gè)更溫和的表述：“風(fēng)險(xiǎn)報(bào)告”。這表明在商業(yè)目標(biāo)面前，Anthropic曾經(jīng)堅(jiān)守的安全原則防線可能已經(jīng)出現(xiàn)松動。

對于Anthropic來說，眼下更深層的困境正逐步浮現(xiàn)：自身所依賴的那部“AI憲法”，其核心原則究竟交由誰來定義？面對這種關(guān)于“度”的永恒爭議，很難得到真正的答案。達(dá)里奧與丹妮拉選擇了躍入潮水之中，并試圖在洪流里拉起一道繩索，目的是“讓AI知曉它不應(yīng)涉足的邊界”。這一切能否堅(jiān)持下去，無人知曉，一切依然需要時(shí)間的檢驗(yàn)。

(責(zé)任編輯：0764)

關(guān)閉

Anthropic如何打造憲法式人工智能 安全至上的理念

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

Anthropic如何打造憲法式人工智能安全至上的理念