电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

警惕AIGC數(shù)據(jù)污染稀釋人類原創(chuàng) 海量AIGC“沖淡”原創(chuàng)數(shù)據(jù)

關鍵詞:
2024-10-17 16:15:00  百家號

互聯(lián)網(wǎng)的普及使得數(shù)據(jù)的生成、傳播和獲取變得便捷,網(wǎng)絡上的數(shù)據(jù)量呈指數(shù)增長,數(shù)據(jù)種類和來源也更加多樣化。這種爆發(fā)式增長推動了以深度學習為代表的人工智能技術的發(fā)展,進而孕育了人工智能生成內容(AIGC)這一新的數(shù)據(jù)生產方式和數(shù)據(jù)要素形態(tài)。

生成式人工智能技術的發(fā)展為人們的學習生活工作帶來了便利,促進了內容創(chuàng)作行業(yè)的發(fā)展。這種新型的數(shù)據(jù)生產方式打破了傳統(tǒng)創(chuàng)作的時間和空間限制,使內容生產更加高效靈活。AIGC引發(fā)了數(shù)據(jù)要素形態(tài)的深刻變革,推動數(shù)據(jù)從靜態(tài)資源向動態(tài)智能要素轉變,為各行各業(yè)的數(shù)字化轉型和智能化升級提供了新動力。

隨著生成式人工智能的普及,數(shù)據(jù)規(guī)模迅速增加,互聯(lián)網(wǎng)上每日新增的圖片、語料等內容中AI生成內容的占比已經(jīng)超過了真實的人類生產內容。隨之而來的是數(shù)據(jù)質量和數(shù)據(jù)污染問題,如深度偽造、偏見和有害內容生成等。大量低質量或不客觀的數(shù)據(jù)不僅對模型訓練產生負面影響,還可能導致錯誤決策和偏差,引發(fā)人們對“數(shù)據(jù)污染”的擔憂。

對于機器學習而言,數(shù)據(jù)污染是指用于訓練的數(shù)據(jù)集中摻雜了低質量的數(shù)據(jù),主要體現(xiàn)在數(shù)據(jù)缺失、沖突、重復、過時和隱私數(shù)據(jù)泄露等方面。在生成式人工智能模型大行其道的當下,AIGC可能會加劇有效數(shù)據(jù)獲取的難度,進而造成全社會層面的數(shù)據(jù)污染,影響構建優(yōu)質數(shù)據(jù)要素的進程。

海量AIGC“沖淡”人類產生的原創(chuàng)數(shù)據(jù)。一項關于插畫繪制網(wǎng)站Pixiv的研究指出,AI繪圖興起后,人類畫師的活躍度下降了4.3%。當AIGC生成的內容開始主導信息生態(tài)時,具有獨創(chuàng)性的人類內容可能被大量的人工智能生成內容“稀釋”乃至“淹沒”?!禢ature》的一項研究指出,當大語言模型或圖片生成模型不斷使用自身生成的數(shù)據(jù)進行迭代訓練時,會導致模型性能快速退化,稱為“模型崩潰”。這將越來越難以收集優(yōu)質的原創(chuàng)性數(shù)據(jù)進行利用,長此以往或將破壞優(yōu)質數(shù)據(jù)要素的構建。

生成式模型的訓練依賴于大量公開的網(wǎng)絡數(shù)據(jù),而互聯(lián)網(wǎng)上的信息質量良莠不齊,網(wǎng)友們的觀點通常帶有強烈的個人色彩。即使盡力清洗和過濾訓練數(shù)據(jù),也很難完全避免有害內容的滲透。如果訓練數(shù)據(jù)中含有偏見或錯誤信息,模型不僅會繼承這些信息,還可能通過生成新內容的方式進一步放大這些問題。由于生成式人工智能模型可以高效地生成海量內容,錯誤觀點和有害信息通過AIGC得以更廣泛、更快速地傳播,并且由于其逼真的表現(xiàn)形式,極易影響公眾判斷,污染網(wǎng)絡數(shù)據(jù)導向。

生成式人工智能可以根據(jù)人的指令生成不存在的內容,極易被用于自動生成虛假新聞和謠言。深度偽造技術正快速發(fā)展,圖片偽造、音頻合成和視頻換臉在生成式AI的幫助下變得輕而易舉,這些虛假內容能夠以逼真的形式迅速傳播,帶來嚴重的社會影響。

從全社會層面來看,倘若低質量的生成內容涌入公共數(shù)據(jù)源,將進一步污染全社會的數(shù)據(jù)來源。當數(shù)據(jù)源被大量低質量生成內容占據(jù),數(shù)據(jù)生態(tài)將逐步崩潰,構建優(yōu)質數(shù)據(jù)要素將無從談起。這不僅影響人工智能行業(yè)的發(fā)展,還會波及各個依賴數(shù)據(jù)要素進行生產活動的行業(yè)和領域,例如新聞、教育、公共安全等。

AIGC數(shù)據(jù)需要“清污”?,F(xiàn)存的隱私保護、知識產權和數(shù)據(jù)信息相關的法律與大數(shù)據(jù)時代已經(jīng)不匹配。面對互聯(lián)網(wǎng)上新增的海量原始數(shù)據(jù),我們亟須構建完善的數(shù)據(jù)內容維護、數(shù)據(jù)質量管理和數(shù)據(jù)安全監(jiān)管體系。

聯(lián)合國大學關于AIGC數(shù)據(jù)利用與風險的一份調研報告建議:全面推進AIGC相關立法,從源頭防范數(shù)據(jù)污染問題;構建全面的AIGC數(shù)據(jù)質量與安全評價體系,促進合成數(shù)據(jù)的合理利用;將AIGC數(shù)據(jù)管理納入全球AI治理合作,促成全球范圍內全面解決合成數(shù)據(jù)帶來的風險;加快明確生成式人工智能倫理與隱私準則,增強生成式人工智能技術的透明性,防范有違全人類共同價值的AIGC內容擴散,并解決用戶隱私和數(shù)據(jù)濫用等問題。

在尚未建立完善的數(shù)據(jù)污染管理體系之前,應對AIGC數(shù)據(jù)污染的有效方法是AIGC檢測技術。依托AIGC檢測技術,可以在構建數(shù)據(jù)集和設計模型結構的過程中篩選出真實的、公正的、有效的數(shù)據(jù)進行訓練,從而在新模型訓練的層面減少數(shù)據(jù)污染的影響,阻斷數(shù)據(jù)污染擴散。

我國已在AI生成文本檢測、深度偽造圖片視頻檢測等方面取得了一定的研究成果。然而,現(xiàn)行AIGC檢測工具的泛化性能較差,檢測準確率并不穩(wěn)定,一旦受到特定攻擊干擾,其檢測準確度會大幅下降。AIGC檢測方法仍然有很長的路要走。

AIGC數(shù)據(jù)的泛濫引發(fā)了人們對生成內容的質量、可靠性和可信度的擔憂。為了確保AIGC服務的可信性和可監(jiān)管性,應該綜合發(fā)展打造完善的AIGC水印技術,以便對AI生成的虛假信息、深度偽造視頻等具有社會危害性的數(shù)據(jù)進行溯源和問責。此外,不妨利用“數(shù)據(jù)稅”這一概念,旨在對上傳大量無效數(shù)據(jù)或敏感數(shù)據(jù)的個體征稅。

信息安全和隱私保護問題變得日益緊迫。在設計下一代生成式模型時應將安全設計根植于模型系統(tǒng)架構,而不是完成設計后再加入安全保障模塊,從而在更加根本的層面緩解因惡意攻擊或系統(tǒng)意外漏洞而帶來的隱私和數(shù)據(jù)安全威脅。

(責任編輯:張小花 TT1000)
關閉

涵藝:下賽季外援頂薪是1050萬,四五家俱樂部要擺爛

涵藝透露LPL外援頂薪1050萬2024-11-04 15:49:09

男子闖燈被攔揮棍打交警?警方通報 涉事人穿仿制制服

男子闖燈被攔揮棍打交警?警方通報2024-11-04 15:49:02

杜鋒呼吁給年輕教練更多空間 理解與支持必不可少

杜鋒呼吁給年輕教練更多空間2024-11-04 15:48:13

投資者削減特朗普交易 美元指數(shù)大幅下跌

投資者削減特朗普交易2024-11-04 15:39:45

臺神秘無人潛艇為什么頻現(xiàn)身?專家解讀

潛艇,無人,臺灣2024-11-04 09:55:12

烏媒:烏官員爆谷歌地圖最新圖像泄露烏軍事系統(tǒng)部署情況,谷歌回應

烏媒:烏官員爆谷歌地圖最新圖像泄露烏軍事系統(tǒng)部署情況,谷歌回應2024-11-04 10:01:02

“伊朗計劃用更強大的彈頭和其他武器報復以色列”

“伊朗計劃用更強大的彈頭和其他武器報復以色列”2024-11-04 09:49:00

美海軍再計劃讓12艘老伯克“延遲退休”

美海軍再計劃讓12艘老伯克“延遲退休”2024-11-04 09:41:17

杜鋒呼吁給年輕教練更多空間 理解與支持必不可少

杜鋒呼吁給年輕教練更多空間2024-11-04 15:48:13

爭議?26歲華裔中場閃耀歐洲仍落選國足!28場造26球 領跑射手榜 狀態(tài)火爆卻遭無視

爭議?26歲華裔中場閃耀歐洲仍落選國足!28場造26球 領跑射手榜2024-11-04 15:40:11

涵藝:下賽季外援頂薪是1050萬,四五家俱樂部要擺爛

涵藝透露LPL外援頂薪1050萬2024-11-04 15:49:09

印度憤怒了,加拿大欺人太甚

印度憤怒了,加拿大欺人太甚2024-11-04 09:22:02

警方通報男孩將女孩捂嘴抱走 電梯內猥褻事件處理結果

警方通報男孩將女孩捂嘴抱走2024-11-04 15:43:02

國足贏球進前4!伊萬率9大前鋒出征巴林 挪甲18球射手王仍未入選 沖擊小組前四

國足贏球進前4!伊萬率9大前鋒出征巴林 挪甲18球射手王仍未入選2024-11-04 15:40:18

瑞士卷怎么分席卷全網(wǎng)老公 吃個蛋糕引發(fā)的風波

瑞士卷怎么分席卷全網(wǎng)老公2024-11-04 15:40:44

離岸人民幣火速大漲 內外因素共推匯率反彈

離岸人民幣火速大漲2024-11-04 15:45:38

臺軍“志愿役”員額仍在萎縮,主力部隊編現(xiàn)比低于八成

臺軍“志愿役”員額仍在萎縮,主力部隊編現(xiàn)比低于八成2024-11-04 09:41:56

復出之戰(zhàn)!王楚欽對陣日本名將,男單世界第一

復出之戰(zhàn)!王楚欽對陣日本名將,男單世界第一2024-11-04 15:44:03

法國要向印太部署航母?解讀來了

法國要向印太部署航母?解讀來了2024-11-04 09:35:29

11月驚奇,世界面臨五大變數(shù)

11月驚奇,世界面臨五大變數(shù)2024-11-04 09:21:26

臺媒稱首批“海馬斯”火箭炮已運抵臺灣

臺媒稱首批“海馬斯”火箭炮已運抵臺灣2024-11-04 09:36:22

嘿呦,臺灣附近海域冒出個“神秘玩意”

嘿呦,臺灣附近海域冒出個“神秘玩意”2024-11-04 09:33:31

以軍登陸黎巴嫩抓捕“真主黨特工”,真主黨回應

以軍登陸黎巴嫩抓捕“真主黨特工”,真主黨回應2024-11-04 09:53:51

德國總統(tǒng)道歉,狠狠打了誰的臉

德國總統(tǒng)道歉,狠狠打了誰的臉2024-11-04 09:20:31

美國空軍真被逼急了……

美國空軍真被逼急了……2024-11-04 09:31:05

黑龍江一地預警接連升級,知名景區(qū)緊急關閉

黑龍江一地預警接連升級2024-11-04 15:45:11

茅臺市場檢查意在控價反擊電商 調整策略穩(wěn)價格

茅臺市場檢查意在控價反擊電商2024-11-04 15:40:02

“難以置信”!一提中國,美高官又“焦慮”了

“難以置信”!一提中國,美高官又“焦慮”了2024-11-04 09:32:13

梅德韋杰夫:特朗普或成第二個肯尼迪 若嘗試結束沖突

梅德韋杰夫:特朗普或成第二個肯尼迪2024-11-04 15:46:00

益陽一學生玩死亡游戲暈倒 當?shù)鼗貞?已要求全市學校排查

益陽一學生玩死亡游戲暈倒 當?shù)鼗貞?/span>2024-11-04 15:47:54

張本智和出局對王楚欽并非好事是嘆息 錯失證明機會

張本智和出局對王楚欽并非好事是嘆息2024-11-04 15:39:53

男子闖燈被攔揮棍打交警?警方通報 涉事人穿仿制制服

男子闖燈被攔揮棍打交警?警方通報2024-11-04 15:49:02

涉嫌泄露機密文件,內塔尼亞胡一名助手被捕

涉嫌泄露機密文件,內塔尼亞胡一名助手被捕2024-11-04 09:45:59

相關新聞