揭秘AI鑒黃師的培養(yǎng) 能酌情處理裸體藝術(shù)品

小大

用微信掃描二維碼
分享至好友和朋友圈

掃描到手機(jī)×

2018-09-14 15:36:08 環(huán)球時(shí)報(bào) 參與評(píng)論()人

原標(biāo)題：揭秘：AI鑒黃師是怎么工作的？如何培養(yǎng)？

網(wǎng)絡(luò)媒體的發(fā)展催生了一個(gè)充滿神秘色彩的職業(yè)——鑒黃師，不少宅男心中的“夢(mèng)想工作”。

殊不知，鑒黃師實(shí)則是一個(gè)無(wú)比艱辛的工種：熬夜、勞累、枯燥……但即便像上了發(fā)條一樣地工作，他們依然越來(lái)越難滿足短視頻時(shí)代鑒黃堵漏的需求。

今年四月，快手、火山小視頻因傳播低俗信息被約談。自此，對(duì)互聯(lián)網(wǎng)色情內(nèi)容的打擊力度愈發(fā)升級(jí)。

人工智能鑒黃師（AI）便由此應(yīng)運(yùn)而生，AI的出現(xiàn)極大地解放了掙扎在鑒黃大業(yè)一線的人工鑒黃師們。

目前在我國(guó)上線的“AI鑒黃師”，不僅能鑒別黃片黃圖，連帶有情色信息的語(yǔ)音內(nèi)容也能夠快速捕捉。近期上線公測(cè)的阿里巴巴AI語(yǔ)音鑒黃反垃圾服務(wù)，不僅能支持中文、日文、英文等多國(guó)語(yǔ)言，還能識(shí)別東北話、四川話、廣東話等方言，就連無(wú)語(yǔ)義的呻吟聲也能識(shí)別出來(lái)。

帶著滿滿的好奇，《環(huán)球時(shí)報(bào)》記者采訪了AI智能鑒黃在圖片、語(yǔ)音和語(yǔ)義三大領(lǐng)域的領(lǐng)先技術(shù)團(tuán)隊(duì)，請(qǐng)他們揭開(kāi)AI鑒黃師的神秘面紗。

AI鑒黃師是怎么工作的？

在圖像鑒黃領(lǐng)域起步較早的圖普科技公司運(yùn)營(yíng)總監(jiān)姜澤榮介紹，圖像鑒黃的原理首先是要制定色情圖片的分類標(biāo)準(zhǔn)，然后收集大量素材，進(jìn)行分類標(biāo)注，最后用這些標(biāo)注好的素材去訓(xùn)練圖片，讓機(jī)器去學(xué)習(xí)各個(gè)分類里面的特征，不斷調(diào)整自己模型的參數(shù)，并最終得到最佳的識(shí)別模型。

當(dāng)機(jī)器對(duì)圖像進(jìn)行識(shí)別以后，這些圖像數(shù)據(jù)會(huì)轉(zhuǎn)化為數(shù)字化的信息，帶入到模型里面進(jìn)行計(jì)算，根據(jù)計(jì)算值將圖片標(biāo)注為“正常、性感、色情”三個(gè)類別。如果在人工復(fù)核環(huán)節(jié)發(fā)現(xiàn)機(jī)器識(shí)別有誤，則會(huì)有針對(duì)性地對(duì)相同場(chǎng)景的圖片進(jìn)行數(shù)據(jù)學(xué)習(xí)，并調(diào)整參數(shù)，直到錯(cuò)誤率達(dá)到最低值。

AI鑒黃師如何培育起來(lái)的？

早在2014年圖普科技就開(kāi)始利用AI來(lái)識(shí)別靜態(tài)圖像里的色情元素，但是早期的素材收集工作卻困難重重。“公司剛成立時(shí)，一天起碼有六個(gè)小時(shí)都在搜集數(shù)據(jù)，簡(jiǎn)單說(shuō)，就是看黃圖、黃片，然后把它們?nèi)拥綌?shù)據(jù)庫(kù)中。一開(kāi)始我們只能依靠自身力量搜集素材，每天都在號(hào)召親友宅男貢獻(xiàn)出自己收藏的資源，但是來(lái)源比較單調(diào)，主要是大陸和島國(guó)片為主。收集的關(guān)鍵全靠尋找‘對(duì)的人’，只要找對(duì)了人，方能以一敵百。直到后來(lái)有了客戶提供的海量數(shù)據(jù)才算真正走向正軌。只有數(shù)據(jù)覆蓋場(chǎng)景越全面，模型才能越精準(zhǔn)?！?/p>

相比語(yǔ)音識(shí)別和圖像識(shí)別，不良信息在語(yǔ)義方面的識(shí)別則發(fā)展略晚。相比之下，它卻更能夠捕捉語(yǔ)言間細(xì)微的、不易被察覺(jué)的“軟色情”信號(hào)，而中文也是語(yǔ)義識(shí)別領(lǐng)域最難做的語(yǔ)言。專注于AI語(yǔ)義識(shí)別的三角獸科技公司技術(shù)總監(jiān)亓超告訴《環(huán)球時(shí)報(bào)》記者，該公司目前在語(yǔ)義方面的“鑒黃”主要體現(xiàn)在人工智能交互系統(tǒng)當(dāng)中，也就是常見(jiàn)的“人機(jī)對(duì)話”。

▲2018年8月3日，北京，油庫(kù)公司，29歲的吉恒杉是一名人工智能標(biāo)注員，他正在訓(xùn)練機(jī)器識(shí)別何為“接吻”鏡頭，因此也被戲稱為“吻戲鑒定師”。圖片：VCG

通俗點(diǎn)講，當(dāng)你有意想要“調(diào)戲”AI的時(shí)候，它首先會(huì)識(shí)別你的輕佻言論，其次能夠迅速捕捉言語(yǔ)間的“雷點(diǎn)”，并在毫秒內(nèi)做出反應(yīng)和判斷，以巧妙的方式規(guī)避開(kāi)你的“調(diào)戲”。對(duì)于一些低俗、污穢的詞句，在人機(jī)對(duì)話中也會(huì)被自動(dòng)屏蔽掉。

在最初的大數(shù)據(jù)學(xué)習(xí)階段，AI需要學(xué)習(xí)“正反語(yǔ)料”素材，反語(yǔ)料通常包括網(wǎng)絡(luò)上搜集來(lái)的不雅詞匯或污言穢語(yǔ)等。有趣的是，一些網(wǎng)絡(luò)新詞更迭速度過(guò)快反而成了程序員們當(dāng)下最棘手的難題，“有些詞昨天聽(tīng)著還很正常，今天就變成了敏感詞匯，比如2017年熱炒的的‘黃鱔女’，出事之后，我們還不能對(duì)黃鱔這個(gè)詞一刀切地屏蔽，因?yàn)榭赡軙?huì)傷害其本來(lái)意義，但還得讓機(jī)器聰明地判斷出這個(gè)詞出現(xiàn)的場(chǎng)景和語(yǔ)義。這就要求我們的技術(shù)不斷更迭。

亓超表示，在數(shù)據(jù)搜集難題上，他也期待未來(lái)能夠和有關(guān)政府部門(mén)合作，以便收集到更多的原始素材來(lái)提高機(jī)器快速學(xué)習(xí)的能力。

由于擔(dān)心兒童成為網(wǎng)絡(luò)黃色暴力主要的受害群體，三角獸在其“兒童聊天引擎”的設(shè)計(jì)中也更加謹(jǐn)慎處理對(duì)內(nèi)容的把控，使其內(nèi)容不良率降低到萬(wàn)分之零點(diǎn)六。亓超告訴記者，在兒童應(yīng)用設(shè)備中他們會(huì)屏蔽過(guò)濾掉如戀愛(ài)、結(jié)婚、懷孕等成人可接受，但不適合兒童接觸的用語(yǔ)，為兒童營(yíng)造一個(gè)安全和健康的聊天環(huán)境。

AI鑒黃的準(zhǔn)確度和效率如何？

阿里巴巴安全部高級(jí)算法工程師威視對(duì)《環(huán)球時(shí)報(bào)》記者表示：AI鑒黃師每天可審核數(shù)億張圖片，識(shí)別準(zhǔn)確率高于99.5%。

“舉個(gè)例子，一天要審核4億張圖片的話，單純由人工來(lái)審，一人一天審1萬(wàn)張，需要4萬(wàn)人，而AI鑒黃只需將其中20萬(wàn)張可疑的圖片篩出來(lái)，由人工再審一道，只需要20人即可。”

圖普科技姜澤榮告訴記者，AI完成鑒別分類后，只會(huì)把判斷結(jié)果和概率告訴使用方，使用方再根據(jù)結(jié)果做對(duì)應(yīng)處理，比如自動(dòng)刪除、或者人工接入復(fù)審。

AI上崗后，人工鑒黃師都會(huì)下崗嗎？

作為早期的人工鑒黃標(biāo)注師，姜澤榮坦言人工鑒黃師其實(shí)是一個(gè)枯燥的體力活，就像“流水線上的工人，遲早會(huì)被機(jī)器替代。AI的出現(xiàn)讓人類把這個(gè)體力活外包出去，然后投身到更有意義的工作中去。”

不少帖子已經(jīng)爆料過(guò)，由于近幾年信息量的暴增和審核的嚴(yán)控，人工鑒黃師加班已經(jīng)常態(tài)化。媒體曾經(jīng)報(bào)道過(guò)有鑒黃師因?yàn)閴毫^(guò)大身體吃不消而向公司提出工傷索賠的新聞。

“剛開(kāi)始接觸大量的小黃圖，確實(shí)會(huì)有生理反應(yīng)，尤其是對(duì)一些心理素質(zhì)不夠好的年輕鑒黃師來(lái)說(shuō)。”姜澤榮說(shuō)。

一位有類似經(jīng)歷的鑒黃師也對(duì)記者表示，頻繁曝光在黃色信息的網(wǎng)絡(luò)中難免會(huì)對(duì)身體造成傷害，偶爾遇到一些比較變態(tài)的視頻或圖片，“會(huì)讓人一整天都吃不下飯”。嚴(yán)重的時(shí)候，在路上看人都是馬賽克。但AI鑒黃的免疫力就會(huì)強(qiáng)得多。

不過(guò)，姜澤榮和威視都表示，AI鑒黃尚不能完全取代人工審核，因?yàn)闄C(jī)器還很難理解內(nèi)容背后的深意，也不會(huì)在不同文化場(chǎng)景中做自由切換。

“最佳的審核方式是智能為主，人工為輔。人工鑒黃師群體數(shù)量少了，目前主要做打標(biāo)和審查可疑圖片的工作?！卑⒗锇踩慨a(chǎn)品專家念夏說(shuō)。

色情和非色情的界限怎么把握？

無(wú)論是語(yǔ)音語(yǔ)義還是圖像，在初期設(shè)計(jì)模型時(shí)會(huì)根據(jù)大眾普遍接受程度來(lái)人為制訂一套“色情界定的標(biāo)準(zhǔn)”。人為的標(biāo)準(zhǔn)并非一成不變，但也存在一定的主觀性。

“三點(diǎn)式泳裝則為性感，裸露胸部卻只遮擋乳頭則是色情，而‘以性感的姿勢(shì)舔舐香蕉’這種‘軟色情’則會(huì)被機(jī)器劃定為‘正常’”，姜澤榮舉例說(shuō)明。

當(dāng)被問(wèn)道如何區(qū)分“性感”與“色情”，他認(rèn)為在制定標(biāo)準(zhǔn)時(shí)有一條默認(rèn)規(guī)則——極端性感即是色情。

▲2018年8月15日，北京，優(yōu)酷公司舉辦“吻戲鑒定師”招聘面試，從上百份簡(jiǎn)歷中篩選出來(lái)的四位候選人進(jìn)入面試環(huán)節(jié)，回答關(guān)于人工智能的技術(shù)問(wèn)題，還要對(duì)著屏幕分辨上百?gòu)埫餍悄?。圖片：IC

▲2018年8月15日，北京，優(yōu)酷公司舉辦“吻戲鑒定師”招聘面試，從上百份簡(jiǎn)歷中篩選出來(lái)的四位候選人進(jìn)入面試環(huán)節(jié)，回答關(guān)于人工智能的技術(shù)問(wèn)題，還要對(duì)著屏幕分辨上百?gòu)埫餍悄槨D片：IC

姜澤榮介紹，在早前設(shè)計(jì)模型的時(shí)候，著名的“大衛(wèi)”雕像就因其某些部位雕刻得太過(guò)于‘寫(xiě)實(shí)逼真’而被標(biāo)定為“色情”。但是隨著人們對(duì)開(kāi)放性文化接受程度的擴(kuò)大，機(jī)器通常會(huì)對(duì)“有裸體出現(xiàn)”的藝術(shù)作品溫柔處理，或視情況酌情考慮，但不包括那些“明顯在傳播色情文化”的藝術(shù)作品，例如春宮圖等。

得知AI鑒黃師上線的消息以后，有些人擔(dān)心AI過(guò)于刻板的標(biāo)準(zhǔn)會(huì)對(duì)原本可以被“僥幸放行”的內(nèi)容也一刀切地砍掉。有人認(rèn)為，色情文化是人類的剛需，但AI無(wú)疑是將“人性的出口牢牢堵住?！?/p>

對(duì)此，姜澤榮并不認(rèn)同。他認(rèn)為，在我國(guó)尚未出現(xiàn)“分級(jí)制度”的情況下，更應(yīng)該對(duì)黃色信息嚴(yán)格把控，“閾值要盡量調(diào)高，寧可錯(cuò)殺，不可錯(cuò)放”，以防止色情信息對(duì)未成年人的傷害。他希望家庭和學(xué)校的性教育可以不斷完善，家長(zhǎng)能對(duì)孩子的性需求有更科學(xué)的引導(dǎo)。

在我國(guó)AI智能產(chǎn)業(yè)強(qiáng)勁發(fā)展的今天，AI勢(shì)必會(huì)以更高效的節(jié)奏做好網(wǎng)絡(luò)安全摸查的排頭兵，我們期待AI鑒黃師能為祖國(guó)打好未來(lái)每一場(chǎng)掃黃攻堅(jiān)的保衛(wèi)戰(zhàn)。

下一頁(yè)

(責(zé)任編輯：費(fèi)琪 CN001、路子康 CN078)

關(guān)鍵詞：