电竞下注-中国电竞赛事及体育赛事平台

揭秘AI鑒黃師的培養(yǎng) 能酌情處理裸體藝術(shù)品

2018-09-14 15:36:08    環(huán)球時(shí)報(bào)  參與評(píng)論()人

原標(biāo)題:揭秘:AI鑒黃師是怎么工作的?如何培養(yǎng)?

網(wǎng)絡(luò)媒體的發(fā)展催生了一個(gè)充滿神秘色彩的職業(yè)——鑒黃師,不少宅男心中的“夢(mèng)想工作”。

殊不知,鑒黃師實(shí)則是一個(gè)無(wú)比艱辛的工種:熬夜、勞累、枯燥……但即便像上了發(fā)條一樣地工作,他們依然越來(lái)越難滿足短視頻時(shí)代鑒黃堵漏的需求。

今年四月,快手、火山小視頻因傳播低俗信息被約談。自此,對(duì)互聯(lián)網(wǎng)色情內(nèi)容的打擊力度愈發(fā)升級(jí)。

人工智能鑒黃師(AI)便由此應(yīng)運(yùn)而生,AI的出現(xiàn)極大地解放了掙扎在鑒黃大業(yè)一線的人工鑒黃師們。

目前在我國(guó)上線的“AI鑒黃師”,不僅能鑒別黃片黃圖,連帶有情色信息的語(yǔ)音內(nèi)容也能夠快速捕捉。近期上線公測(cè)的阿里巴巴AI語(yǔ)音鑒黃反垃圾服務(wù),不僅能支持中文、日文、英文等多國(guó)語(yǔ)言,還能識(shí)別東北話、四川話、廣東話等方言,就連無(wú)語(yǔ)義的呻吟聲也能識(shí)別出來(lái)。

帶著滿滿的好奇,《環(huán)球時(shí)報(bào)》記者采訪了AI智能鑒黃在圖片、語(yǔ)音和語(yǔ)義三大領(lǐng)域的領(lǐng)先技術(shù)團(tuán)隊(duì),請(qǐng)他們揭開(kāi)AI鑒黃師的神秘面紗。

AI鑒黃師是怎么工作的?

在圖像鑒黃領(lǐng)域起步較早的圖普科技公司運(yùn)營(yíng)總監(jiān)姜澤榮介紹,圖像鑒黃的原理首先是要制定色情圖片的分類標(biāo)準(zhǔn),然后收集大量素材,進(jìn)行分類標(biāo)注,最后用這些標(biāo)注好的素材去訓(xùn)練圖片,讓機(jī)器去學(xué)習(xí)各個(gè)分類里面的特征,不斷調(diào)整自己模型的參數(shù),并最終得到最佳的識(shí)別模型。

當(dāng)機(jī)器對(duì)圖像進(jìn)行識(shí)別以后,這些圖像數(shù)據(jù)會(huì)轉(zhuǎn)化為數(shù)字化的信息,帶入到模型里面進(jìn)行計(jì)算,根據(jù)計(jì)算值將圖片標(biāo)注為“正常、性感、色情”三個(gè)類別。如果在人工復(fù)核環(huán)節(jié)發(fā)現(xiàn)機(jī)器識(shí)別有誤,則會(huì)有針對(duì)性地對(duì)相同場(chǎng)景的圖片進(jìn)行數(shù)據(jù)學(xué)習(xí),并調(diào)整參數(shù),直到錯(cuò)誤率達(dá)到最低值。

AI鑒黃師如何培育起來(lái)的?

早在2014年圖普科技就開(kāi)始利用AI來(lái)識(shí)別靜態(tài)圖像里的色情元素,但是早期的素材收集工作卻困難重重。“公司剛成立時(shí),一天起碼有六個(gè)小時(shí)都在搜集數(shù)據(jù),簡(jiǎn)單說(shuō),就是看黃圖、黃片,然后把它們?nèi)拥綌?shù)據(jù)庫(kù)中。一開(kāi)始我們只能依靠自身力量搜集素材,每天都在號(hào)召親友宅男貢獻(xiàn)出自己收藏的資源,但是來(lái)源比較單調(diào),主要是大陸和島國(guó)片為主。收集的關(guān)鍵全靠尋找‘對(duì)的人’,只要找對(duì)了人,方能以一敵百。直到后來(lái)有了客戶提供的海量數(shù)據(jù)才算真正走向正軌。只有數(shù)據(jù)覆蓋場(chǎng)景越全面,模型才能越精準(zhǔn)?!?/p>

相比語(yǔ)音識(shí)別和圖像識(shí)別,不良信息在語(yǔ)義方面的識(shí)別則發(fā)展略晚。相比之下,它卻更能夠捕捉語(yǔ)言間細(xì)微的、不易被察覺(jué)的“軟色情”信號(hào),而中文也是語(yǔ)義識(shí)別領(lǐng)域最難做的語(yǔ)言。專注于AI語(yǔ)義識(shí)別的三角獸科技公司技術(shù)總監(jiān)亓超告訴《環(huán)球時(shí)報(bào)》記者,該公司目前在語(yǔ)義方面的“鑒黃”主要體現(xiàn)在人工智能交互系統(tǒng)當(dāng)中,也就是常見(jiàn)的“人機(jī)對(duì)話”。

▲2018年8月3日,北京,油庫(kù)公司,29歲的吉恒杉是一名人工智能標(biāo)注員,他正在訓(xùn)練機(jī)器識(shí)別何為“接吻”鏡頭,因此也被戲稱為“吻戲鑒定師”。圖片:VCG

▲2018年8月3日,北京,油庫(kù)公司,29歲的吉恒杉是一名人工智能標(biāo)注員,他正在訓(xùn)練機(jī)器識(shí)別何為“接吻”鏡頭,因此也被戲稱為“吻戲鑒定師”。圖片:VCG

通俗點(diǎn)講,當(dāng)你有意想要“調(diào)戲”AI的時(shí)候,它首先會(huì)識(shí)別你的輕佻言論,其次能夠迅速捕捉言語(yǔ)間的“雷點(diǎn)”,并在毫秒內(nèi)做出反應(yīng)和判斷,以巧妙的方式規(guī)避開(kāi)你的“調(diào)戲”。對(duì)于一些低俗、污穢的詞句,在人機(jī)對(duì)話中也會(huì)被自動(dòng)屏蔽掉。

在最初的大數(shù)據(jù)學(xué)習(xí)階段,AI需要學(xué)習(xí)“正反語(yǔ)料”素材,反語(yǔ)料通常包括網(wǎng)絡(luò)上搜集來(lái)的不雅詞匯或污言穢語(yǔ)等。有趣的是,一些網(wǎng)絡(luò)新詞更迭速度過(guò)快反而成了程序員們當(dāng)下最棘手的難題,“有些詞昨天聽(tīng)著還很正常,今天就變成了敏感詞匯,比如2017年熱炒的的‘黃鱔女’,出事之后,我們還不能對(duì)黃鱔這個(gè)詞一刀切地屏蔽,因?yàn)榭赡軙?huì)傷害其本來(lái)意義,但還得讓機(jī)器聰明地判斷出這個(gè)詞出現(xiàn)的場(chǎng)景和語(yǔ)義。這就要求我們的技術(shù)不斷更迭。

亓超表示,在數(shù)據(jù)搜集難題上,他也期待未來(lái)能夠和有關(guān)政府部門(mén)合作,以便收集到更多的原始素材來(lái)提高機(jī)器快速學(xué)習(xí)的能力。

由于擔(dān)心兒童成為網(wǎng)絡(luò)黃色暴力主要的受害群體,三角獸在其“兒童聊天引擎”的設(shè)計(jì)中也更加謹(jǐn)慎處理對(duì)內(nèi)容的把控,使其內(nèi)容不良率降低到萬(wàn)分之零點(diǎn)六。亓超告訴記者,在兒童應(yīng)用設(shè)備中他們會(huì)屏蔽過(guò)濾掉如戀愛(ài)、結(jié)婚、懷孕等成人可接受,但不適合兒童接觸的用語(yǔ),為兒童營(yíng)造一個(gè)安全和健康的聊天環(huán)境。

AI鑒黃的準(zhǔn)確度和效率如何?

阿里巴巴安全部高級(jí)算法工程師威視對(duì)《環(huán)球時(shí)報(bào)》記者表示:AI鑒黃師每天可審核數(shù)億張圖片,識(shí)別準(zhǔn)確率高于99.5%。

“舉個(gè)例子,一天要審核4億張圖片的話,單純由人工來(lái)審,一人一天審1萬(wàn)張,需要4萬(wàn)人,而AI鑒黃只需將其中20萬(wàn)張可疑的圖片篩出來(lái),由人工再審一道,只需要20人即可。”

圖普科技姜澤榮告訴記者,AI完成鑒別分類后,只會(huì)把判斷結(jié)果和概率告訴使用方,使用方再根據(jù)結(jié)果做對(duì)應(yīng)處理,比如自動(dòng)刪除、或者人工接入復(fù)審。

AI上崗后,人工鑒黃師都會(huì)下崗嗎?

作為早期的人工鑒黃標(biāo)注師,姜澤榮坦言人工鑒黃師其實(shí)是一個(gè)枯燥的體力活,就像“流水線上的工人,遲早會(huì)被機(jī)器替代。AI的出現(xiàn)讓人類把這個(gè)體力活外包出去,然后投身到更有意義的工作中去。”

不少帖子已經(jīng)爆料過(guò),由于近幾年信息量的暴增和審核的嚴(yán)控,人工鑒黃師加班已經(jīng)常態(tài)化。媒體曾經(jīng)報(bào)道過(guò)有鑒黃師因?yàn)閴毫^(guò)大身體吃不消而向公司提出工傷索賠的新聞。

“剛開(kāi)始接觸大量的小黃圖,確實(shí)會(huì)有生理反應(yīng),尤其是對(duì)一些心理素質(zhì)不夠好的年輕鑒黃師來(lái)說(shuō)。”姜澤榮說(shuō)。

一位有類似經(jīng)歷的鑒黃師也對(duì)記者表示,頻繁曝光在黃色信息的網(wǎng)絡(luò)中難免會(huì)對(duì)身體造成傷害,偶爾遇到一些比較變態(tài)的視頻或圖片,“會(huì)讓人一整天都吃不下飯”。嚴(yán)重的時(shí)候,在路上看人都是馬賽克。但AI鑒黃的免疫力就會(huì)強(qiáng)得多。

不過(guò),姜澤榮和威視都表示,AI鑒黃尚不能完全取代人工審核,因?yàn)闄C(jī)器還很難理解內(nèi)容背后的深意,也不會(huì)在不同文化場(chǎng)景中做自由切換。

“最佳的審核方式是智能為主,人工為輔。人工鑒黃師群體數(shù)量少了,目前主要做打標(biāo)和審查可疑圖片的工作?!卑⒗锇踩慨a(chǎn)品專家念夏說(shuō)。

色情和非色情的界限怎么把握?

無(wú)論是語(yǔ)音語(yǔ)義還是圖像,在初期設(shè)計(jì)模型時(shí)會(huì)根據(jù)大眾普遍接受程度來(lái)人為制訂一套“色情界定的標(biāo)準(zhǔn)”。人為的標(biāo)準(zhǔn)并非一成不變,但也存在一定的主觀性。

“三點(diǎn)式泳裝則為性感,裸露胸部卻只遮擋乳頭則是色情,而‘以性感的姿勢(shì)舔舐香蕉’這種‘軟色情’則會(huì)被機(jī)器劃定為‘正常’”,姜澤榮舉例說(shuō)明。

當(dāng)被問(wèn)道如何區(qū)分“性感”與“色情”,他認(rèn)為在制定標(biāo)準(zhǔn)時(shí)有一條默認(rèn)規(guī)則——極端性感即是色情。

▲2018年8月15日,北京,優(yōu)酷公司舉辦“吻戲鑒定師”招聘面試,從上百份簡(jiǎn)歷中篩選出來(lái)的四位候選人進(jìn)入面試環(huán)節(jié),回答關(guān)于人工智能的技術(shù)問(wèn)題,還要對(duì)著屏幕分辨上百?gòu)埫餍悄?。圖片:IC

▲2018年8月15日,北京,優(yōu)酷公司舉辦“吻戲鑒定師”招聘面試,從上百份簡(jiǎn)歷中篩選出來(lái)的四位候選人進(jìn)入面試環(huán)節(jié),回答關(guān)于人工智能的技術(shù)問(wèn)題,還要對(duì)著屏幕分辨上百?gòu)埫餍悄槨D片:IC

姜澤榮介紹,在早前設(shè)計(jì)模型的時(shí)候,著名的“大衛(wèi)”雕像就因其某些部位雕刻得太過(guò)于‘寫(xiě)實(shí)逼真’而被標(biāo)定為“色情”。但是隨著人們對(duì)開(kāi)放性文化接受程度的擴(kuò)大,機(jī)器通常會(huì)對(duì)“有裸體出現(xiàn)”的藝術(shù)作品溫柔處理,或視情況酌情考慮,但不包括那些“明顯在傳播色情文化”的藝術(shù)作品,例如春宮圖等。

得知AI鑒黃師上線的消息以后,有些人擔(dān)心AI過(guò)于刻板的標(biāo)準(zhǔn)會(huì)對(duì)原本可以被“僥幸放行”的內(nèi)容也一刀切地砍掉。有人認(rèn)為,色情文化是人類的剛需,但AI無(wú)疑是將“人性的出口牢牢堵住?!?/p>

對(duì)此,姜澤榮并不認(rèn)同。他認(rèn)為,在我國(guó)尚未出現(xiàn)“分級(jí)制度”的情況下,更應(yīng)該對(duì)黃色信息嚴(yán)格把控,“閾值要盡量調(diào)高,寧可錯(cuò)殺,不可錯(cuò)放”,以防止色情信息對(duì)未成年人的傷害。他希望家庭和學(xué)校的性教育可以不斷完善,家長(zhǎng)能對(duì)孩子的性需求有更科學(xué)的引導(dǎo)。

在我國(guó)AI智能產(chǎn)業(yè)強(qiáng)勁發(fā)展的今天,AI勢(shì)必會(huì)以更高效的節(jié)奏做好網(wǎng)絡(luò)安全摸查的排頭兵,我們期待AI鑒黃師能為祖國(guó)打好未來(lái)每一場(chǎng)掃黃攻堅(jiān)的保衛(wèi)戰(zhàn)。

(責(zé)任編輯:費(fèi)琪 CN001、路子康 CN078)
關(guān)鍵詞:

相關(guān)報(bào)道:

    關(guān)閉
     

    相關(guān)新聞