电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng)

設(shè)為書簽Ctrl+D將本頁面保存為書簽,全面了解最新資訊,方便快捷。
軍事APP
當(dāng)前位置:新聞 > 社會新聞 > 社會新聞更多頁面 > 正文

搜狗發(fā)布AI合成主播 連唇形、面部表情也能完全吻合

搜狗發(fā)布AI合成主播 連唇形、面部表情也能完全吻合
2018-11-08 14:27:07 騰訊科技

原標(biāo)題:搜狗發(fā)布AI合成主播 背后技術(shù)“搜狗分身”同時(shí)浮出水面

騰訊科技訊(孫宏超)11月8日消息,在11月7日開幕的第五屆世界互聯(lián)網(wǎng)大會上,搜狗宣布其與新華社合作開發(fā)、全球第一個(gè)全仿真智能合成主持人——“AI合成主播”正式亮相,同時(shí)搜狗未來人工智能的核心技術(shù)“搜狗分身”也獲得了廣泛關(guān)注。

據(jù)介紹,觀眾只要向“AI合成主播”輸入一句既有的新聞文本,屏幕上就會出現(xiàn)一位合成的新華社新聞主播,他不僅會用和真人一樣的聲音進(jìn)行播報(bào),連唇形、面部表情也能完全吻合。這樣的視頻效果,無論看上去還是聽起來,都與現(xiàn)實(shí)中的新華社主播的本人播報(bào)沒有太大差別。

在合成主播的開發(fā)過程中,搜狗公司的相關(guān)技術(shù)人員同新華社的新聞主播一同進(jìn)行了各種探索嘗試,在“搜狗分身”技術(shù)的支持下,通過人臉關(guān)鍵點(diǎn)檢測、人臉特征提取、人臉重構(gòu)、唇語識別、情感遷移等多項(xiàng)前沿技術(shù),并結(jié)合語音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練后,“AI合成主播”正式誕生。

同時(shí),據(jù)搜狗公司智能語音事業(yè)部總經(jīng)理王硯峰介紹,“搜狗分身”技術(shù)是搜狗人工智能的核心技術(shù)之一,誕生于搜狗“自然交互+知識計(jì)算”這一人工智能理念之下。該技術(shù)能夠利用搜狗的AI能力,從圖像表情,聲音語言習(xí)慣,邏輯思維等層面對AI進(jìn)行擬人化訓(xùn)練,然后克隆制造人類的AI分身,進(jìn)而幫助人類提高信息表達(dá)和傳遞的效率。該技術(shù)是支撐“AI合成主播”正常運(yùn)轉(zhuǎn)的核心。

會后,搜狗公司CEO王小川接受騰訊科技等媒體采訪,以下為部分采訪實(shí)錄(在不改變原意情況下有所刪減)

媒體:像剛剛主持人說的,會不會他就失業(yè)了?

王小川:首先AI技術(shù)分為了感知技術(shù)和認(rèn)知技術(shù)。感知是有聲音的、有圖像的,感知技術(shù)方向上,機(jī)器基本有機(jī)會可以做到跟人一樣好。但是在認(rèn)知技術(shù)方向上,機(jī)器背后的推理、知識、思考,以語言為核心的邏輯性的東西,機(jī)器的處理能力是有限的,這種情況下,涉及到人的高級活動的時(shí)候,機(jī)器現(xiàn)在是做不到的。

媒體:以后有可能做到嗎?

王小川:現(xiàn)在沒有這個(gè)技術(shù)。如果是在垂直領(lǐng)域里,特別細(xì)分的特定領(lǐng)域,像法律或者醫(yī)療,面越窄,機(jī)器更有機(jī)會在這個(gè)特定的領(lǐng)域里做到更接近人類。不能把AI當(dāng)成大的詞兒,AI里面有很多內(nèi)涵。在這種情況下,把AI上升到跟人們認(rèn)知相關(guān)的事情,機(jī)器在里面只能做輔助,是沒有辦法取代人類的。但如果只是聽個(gè)聲音,看個(gè)圖像,現(xiàn)在像Face++或者商湯做的事情,機(jī)器就已經(jīng)能取代一部分感知上的事情了。對于人類的高級活動,現(xiàn)在機(jī)器取代人類是沒戲的。高級活動叫認(rèn)知,低級活動叫感知,目前的機(jī)器可以做到感知,這是先給大的框。

媒體:您怎么看AI合成主播,人類跟機(jī)器是怎樣的關(guān)系?取代還是配合?

王小川:名字我們跟新華社定了,叫AI合成主播。這項(xiàng)技術(shù)里面涉及三個(gè)合成:聲音合成、表情合成、唇型合成,特別是唇型合成。因?yàn)楸旧硖摂M這個(gè)詞,畫個(gè)卡通畫也叫虛擬,如果叫虛擬主播的話別人容易較真,說這個(gè)東西怎么叫虛擬,所以我們叫AI合成主播。AI合成主播和人類的關(guān)系是取代還是配合這個(gè)問題的話,如果只是感知問題,不涉及到后面的語言組織、撰寫深度稿件的話,它是可以去跟真人接近的。

媒體:意思是人可以做寫新聞稿的人,剩下的事就交給它?

王小川:如果想做到惟妙惟肖,比如什么地方該發(fā)怒,什么地方該柔情,這樣的事情機(jī)器很難做到,因?yàn)楦遄拥膬?nèi)容機(jī)器是不懂的,它不理解真正的含義。如果只用視覺和聽覺表達(dá),AI合成主播可以接近真人,一旦與內(nèi)容有高度相關(guān)性,機(jī)器的作用就會弱一些。

媒體:搜狗的AI合成主播跟微軟小冰做的主播有什么差異?

王小川:搜狗的AI合成主播是真人的形象,小冰給的是虛擬形象,聲音跟真人不一樣,也沒有表情和唇型的變化。AI合成主播真的是合成之后,能夠起到真人的替身作用。

媒體:這個(gè)技術(shù)除了在主播領(lǐng)域,還有哪些其他場景的應(yīng)用?

王小川:比如說現(xiàn)在我們跟凱叔講故事談,以前是凱叔去講故事,以后可能就會變成你的爸爸媽媽給你講故事。在我們大的理念下,主播是其中一塊,之后要把它個(gè)性化,變成其他的人。

媒體:搜狗現(xiàn)在有考慮進(jìn)一步怎么去做么?

王小川:未來搜狗輸入法的方向,我曾經(jīng)講過是叫輔助對話,就是幫你去說話。去年搜狗上市的時(shí)候,我一天收到三千條祝福的微信,如果我用語音回,我也要說三千條,而且發(fā)信息的人不一樣,有的是記者朋友,有的是老同學(xué),那么回復(fù)內(nèi)容也不一樣,這個(gè)時(shí)候你就需要個(gè)分身了,它能用你的個(gè)性幫你去說話,幫你去做機(jī)械性的、重復(fù)性的勞動。搜狗有兩個(gè)理念,一個(gè)理念就是讓機(jī)器能夠成為你的分身,一個(gè)是讓機(jī)器成為你的助理。搜狗搜索做問答就是要成為你的助理。這是搜狗AI兩個(gè)核心的方向。

媒體:在語言這塊,門檻并不高?

王小川:語言這塊門檻挺高,高德地圖合成林志玲的聲音的時(shí)候,林志玲是讀了非常多句話的,不是固定的“向左轉(zhuǎn)向右轉(zhuǎn)”的句子。搜狗現(xiàn)在只要求十幾分鐘的數(shù)據(jù)量就夠了,可以用很小的數(shù)據(jù)合成一個(gè)人的聲音。

媒體:為什么?是有什么算法的突破嗎?

王小川:所謂小數(shù)據(jù)其實(shí)也是離不開大數(shù)據(jù)的,機(jī)器要看很多聲音,然后找到這個(gè)人的聲音特征跟別人有什么不一樣,所以小也是大。我們以前說嬰兒學(xué)習(xí)很快,看一張圖片就會了,其實(shí)他是看了很多圖片之后再看一張圖片。所以對特定領(lǐng)域來說,數(shù)據(jù)越小越好,但是要掌握足夠多的通用領(lǐng)域的數(shù)據(jù)。因此這里涉及到的技術(shù),既要有海量聲音的訓(xùn)練,同時(shí)能做到用更少的聲音數(shù)據(jù)訓(xùn)練特定人的聲音,這是有技術(shù)壁壘的。

媒體:合成主播商業(yè)化的節(jié)奏會不會比之前做的其他AI落地的項(xiàng)目要快一點(diǎn)?

王小川:最快的話,第一是翻譯,翻譯是剛需。不只是翻譯寶,搜狗搜索支持用中文搜索全球信息,用中文閱讀全球信息,這是應(yīng)用了翻譯技術(shù)的。翻譯是搜狗的使命之一,輸入法輸入中文轉(zhuǎn)成外文,搜索能搜外文轉(zhuǎn)成中文。我們本身是做信息橋梁的公司,所以翻譯是很重要的,這也是最快落地的技術(shù)。首先是語音、圖像,然后是翻譯,翻譯之后是分身,訓(xùn)練一個(gè)人的數(shù)據(jù)之后,幫助他去做表達(dá)。最后是問答,就是個(gè)人助理,幫你回答問題。對于消費(fèi)者而言,這是技術(shù)演進(jìn)的路線。

媒體:搜狗做通用訓(xùn)練的時(shí)候,語音素材是怎么拿到的,是平常語音輸入的時(shí)候的語音嗎,還是怎么樣的?

王小川:我們有很多合作,很多標(biāo)注。比如現(xiàn)在我們跟喜馬拉雅有合作,他們讀的東西我們可以拿過來用,盡可能多的采集不同的語音。

媒體:除了醫(yī)療以外,搜狗也在做法律相關(guān)的內(nèi)容搜索,對這種領(lǐng)域的選擇標(biāo)準(zhǔn)以及下一步擴(kuò)展垂直搜索的規(guī)劃是什么?

王小川:首先最大的是醫(yī)療,法律是中間有明顯的知識結(jié)構(gòu)化能力在,這個(gè)知識邊界是相對有權(quán)威和規(guī)范的,在這種情況下,我們可能去做一個(gè)選擇。但是醫(yī)療還是遠(yuǎn)遠(yuǎn)優(yōu)于法律的。

媒體:搜狗還會擴(kuò)展其他領(lǐng)域嗎?

王小川:其他領(lǐng)域,百科我們還是想努力能把它做得更加權(quán)威和真實(shí)??傊行╊I(lǐng)域,互聯(lián)網(wǎng)的信息不夠好,我們希望能夠在里面能用新的方法做好,用AI技術(shù)或者用不同的方式。

媒體:為什么要做搜狗號,這塊內(nèi)容是怎么樣的,為什么要介入這個(gè)市場?

王小川:因?yàn)榻裉熳銎脚_,就像頭條或者像抖音,一頭是用戶在里面去消費(fèi),一頭生產(chǎn)方是合作關(guān)系,這種合作不是光簽合同的,確實(shí)能夠做個(gè)平臺,把它放進(jìn)來了,但搜索引擎不是,搜索的模式是抓來的,頭條號或者說像這樣的搜狗號很大意愿是希望增加內(nèi)容的合作比例,是更規(guī)范,比如這里大家廣告做多少,有一定的互相的共識,這樣能夠提升合作的內(nèi)容和質(zhì)量,讓用戶體驗(yàn)更好。

媒體:會覺得做得晚嗎?

王小川:再早對我們講也不會成為戰(zhàn)略上的突破點(diǎn)。

媒體:這種信息流的改變會給搜狗帶來更大的營收嗎?

王小川:會有一些,信息流廣告主要是基于APP,搜狗APP或者瀏覽器,能有些補(bǔ)充。如果APP量特別大,收益是大的。

媒體:之前您說一直刷抖音,刷頭條,很容易沉迷進(jìn)去,搜狗號能不能改變這件事情?

王小川:我們做搜狗號很大層面是為搜索服務(wù)的,而不是只說為做信息流這件事情。第二,有些東西改不改變,比如游戲,我們就不做了,對我們而言,從我們興趣愛好經(jīng)驗(yàn)上不是游戲,游戲一樣,滿足你沉迷在里面,一直獲得虛擬世界,有太虛幻景表達(dá)這樣的概念,人是需要的,但是怎么去引導(dǎo),我們沒有這方面創(chuàng)造引導(dǎo)能力,我們愿意把我們的優(yōu)勢發(fā)揮在我們自己擅長的地方上,我們讓信息表達(dá)更加簡單,我們做翻譯,我們在中間去做問答技術(shù)。

媒體:搜狗搜索以后在流量渠道或者獲客層面有什么樣的想法?

王小川:渠道方面有兩個(gè)事是要突破的,一個(gè)地方是利用自有的流量渠道,比如用戶在輸入法輸入的時(shí)候,如果甄別到他有這樣的意圖,我們能直接給他提供更好的信息滿足他,甚至給別人做分享,這個(gè)事情上我們還有大的空間提升的,搜索跟輸入行為的連接,第二我們希望在搜索結(jié)果里,能有更好的差異化或者權(quán)威性,就像之前做的微信內(nèi)容,現(xiàn)在我們是著力在強(qiáng)調(diào)醫(yī)療健康內(nèi)容,希望內(nèi)容上有差異化,使得用戶變成主動使用,而不是靠合作的,QQ瀏覽器或者手機(jī)廠商,這樣的話成本會降下來。

媒體:搜狗AI方面戰(zhàn)略還是比較聚焦的,有沒有考慮相關(guān)多元化或者更多AI的軟件或者科研或者硬件?

王小川:不考慮,我覺得我們已經(jīng)張得很開了,我們在信息文明時(shí)代核心就是對知識或者對語言的理解,做AI我認(rèn)為要滿足幾條,今天說AI是屬于大公司做,大公司有幾個(gè),第一個(gè)有場景,有數(shù)據(jù),所以你做AI,如果你沒場景,沒有數(shù)據(jù),只做技術(shù),這件事情是很困難的,我們數(shù)據(jù)和場景是在用戶表達(dá)和信息獲取里,在輸入和搜索里,所以我們圍繞場景做這件事情。第二,中間是需要在這里面有持續(xù)的投入,投入里很多創(chuàng)業(yè)公司或者沒有商業(yè)模式的公司,它今天投這樣,如果哪天市場沒打開,那可能這個(gè)東西就掉下去,我們是有足夠資金去投,但是也希望跟可見的商業(yè)價(jià)值去匹配,我們做翻譯已經(jīng)沒有考慮商業(yè),已經(jīng)在拓展,我們最近一共支持500場同聲傳譯,我們已經(jīng)努力往外拓展的時(shí)候,往外拓展不是考慮商業(yè)問題,還是圍繞我們的使命來進(jìn)行,就是表達(dá)和獲取信息更簡單,以及未來讓機(jī)器部分取代人或者給人提供服務(wù)。

媒體:單純同傳這個(gè)問題,機(jī)器有沒有可能取代人?

王小川:不能,做不到。如果用好的人,機(jī)器是趕不上的,但是有很多地方是因?yàn)槟銢]有優(yōu)秀的同傳或者出國旅游沒法給一個(gè)人配一個(gè)人,這種情況下,機(jī)器可以去作用,翻譯往簡單走是重復(fù)性勞動,但是真的好的翻譯是有知識,有思考的,你讓他思考的東西,機(jī)器就沒人強(qiáng),開放性思考,如果只是棋盤上封閉思考,機(jī)器下圍棋,可以干,但是開放性的環(huán)境,機(jī)器是不夠的。

媒體:會考慮在多媒體搜索上有一些布局嗎?

王小川:搜索核心是以語言為核心的,如果離開了文字,只是畫圖,這是不夠的。我們是有圖像搜索能力,有聲音去做搜索,但核心要點(diǎn)是在閱讀理解,這個(gè)事情不是我們最受益或者是我們突破點(diǎn)最大的地方。我們突破是在語言的理解里面,這個(gè)更難,比5G還難。

媒體:從硬件的產(chǎn)品上,未來有可能做OEM嗎?

王小川:有可能,但是現(xiàn)在通過自己的東西把它給做透了,再開放,就像亞馬遜一樣,之前做echo的音箱,也是自己做,自己做才有機(jī)會跟別人一塊玩,否則第一天就是B2B2C,你不知道客戶在哪兒,或者跟客戶沒有形成正面的習(xí)慣,to C公司不夠的,先把自己做透,然后發(fā)現(xiàn)能力不夠了,再開放。

媒體:要到達(dá)真正的AI個(gè)人助理,還要多久,還要突破哪些東西?

王小川:我們之前20年,我們稱之為信息時(shí)代,每個(gè)時(shí)代都有它的起點(diǎn),就像最早輪子發(fā)明,有了農(nóng)業(yè)時(shí)代,輪子發(fā)明,可以推著小車去種地了,這是原始走過來。后來有蒸汽機(jī),進(jìn)入工業(yè)時(shí)代,后來有了計(jì)算機(jī)和互聯(lián)網(wǎng),我們進(jìn)入信息時(shí)代,信息時(shí)代大的特點(diǎn)就是能夠跨地域,跨時(shí)間,時(shí)空跨越進(jìn)行信息的傳遞。像e—mail或者IM就能跟大家進(jìn)行遠(yuǎn)程的交流,或者把信息放在網(wǎng)上,然后你用搜索檢索到,在這種情況下,輸入法、搜索引擎和通訊軟件是對新時(shí)代最核心的應(yīng)用,你剛才問的問題是AI個(gè)人助理往下20年里很重要的事情。

媒體:它真的到能夠很好地幫助人,協(xié)助人的階段,還要多久?

王小川:垂直領(lǐng)域慢慢就有了,真的輔助人,給普通人做翻譯,也是AI助理,以前靠真人,現(xiàn)在靠機(jī)器能做一部分了,再往下,像我們垂直場景里,我們也在做機(jī)器幫你做自動回復(fù),給銷售公司或者客服公司在用。他已經(jīng)開始在做,但是他需要領(lǐng)域支持,是要靠人把這種知識進(jìn)行訓(xùn)練之后再做,不是只有思考能力。所以往下是靠數(shù)據(jù)驅(qū)動做這件事情,你讓它只會幫助人,他現(xiàn)在沒有取代人,現(xiàn)在看不到技術(shù)取代人,但是幫助人的事已經(jīng)開始發(fā)生了。

媒體:這里是賣解決方案嗎?

王小川:我們是to C,我們會把它用到消費(fèi)者,讓消費(fèi)者使用更方便。

媒體:AI合成主播或者未來做的AI合成影像,未來的使用場景是什么樣?

王小川:合成主播,今天給我們核心能力要做對話和問答,同時(shí)可以互動的,因此在醫(yī)療,在法律,在一些人機(jī)交互里,承擔(dān)了一個(gè)讓人更友好溝通的角色,但真正服務(wù)內(nèi)容是去要面對內(nèi)容的,就是把服務(wù)帶進(jìn)去。另外一種場景就是今天看到一種,交給新華社,他們有編輯在里面寫出稿子來,機(jī)器只是讀的角色,是單向的,不是雙向的,所以他只是自然交互,在知識計(jì)算里還沒有把這個(gè)能力放進(jìn)去。

媒體:搜狗未來的戰(zhàn)略是AI+IoT(物聯(lián)網(wǎng)),可以這么理解嗎?

王小川:IoT只是一個(gè)界面,我不能把IoT放在這么高的高度去,AI是核心,去幫助人表達(dá)獲取信息,IoT只是中間幫助你表達(dá)獲取信息的入口。

媒體:搜狗為什么不做智能音箱?

王小川:這個(gè)產(chǎn)品的核心點(diǎn)在于足夠低價(jià)便宜,不是靠技術(shù)驅(qū)動的,沒有這方面的能力,只能靠資金驅(qū)動,沒啥AI在里面。相當(dāng)于虧著錢賣,像打車外賣是燒錢的活,我們其實(shí)是不會做的,沒那個(gè)能力。

媒體:人工智能賺錢的拐點(diǎn)是什么時(shí)候?

王小川:人工智能是項(xiàng)技術(shù),你說技術(shù)賺錢,這個(gè)詞是不成立的,你要變成某個(gè)業(yè)務(wù)才能變成賺錢的事情。而且人工智能技術(shù)尤其還需要數(shù)據(jù)驅(qū)動,所以小公司更困難。它是一個(gè)場景,能做附加的東西,這個(gè)不是從拐點(diǎn)上來看的。所以這是社會大分工、讓數(shù)據(jù)交換,讓小公司給大公司提供技術(shù)服務(wù),看現(xiàn)在的趨勢,人工智能還真是大公司的事。另一條,如果政府做了很大的數(shù)據(jù)開放,可能會帶來新的投資機(jī)會,等于小公司有機(jī)會獲得數(shù)據(jù)了,如果政府開放數(shù)據(jù),可能會帶來新的機(jī)會,這個(gè)事不知道會不會發(fā)生。

媒體:科創(chuàng)板塊有一個(gè)新的進(jìn)展,會不會投資一些公司?會不會自己上。

王小川:我們模式不會變的,我們不會投資賺錢,這不是我們干的活,我們做不過其他專業(yè)機(jī)構(gòu)的。談到我們自己,因?yàn)槲覀冊诿绹呀?jīng)上了,國內(nèi)環(huán)境,科創(chuàng)板塊如果做成功了,有巨大的意義。但是這東西就看政策,只知道這個(gè)事發(fā)生了,但是最后怎么演化,希望它成功,對中國是革命性的意義在。

媒體:在選擇2C智能硬件的產(chǎn)品的時(shí)候,您覺得現(xiàn)在還有哪些場景不被滿足的?

王小川:第一,需要有更好的錄音筆,真的是給老師,自媒體的人做演講的時(shí)候或者雙方談合同的時(shí)候,只要有商務(wù)活動都能用到,這是需要做的一件事情,但還不是品牌性的產(chǎn)品,要是能力上有升級,會有新的產(chǎn)品,我認(rèn)為努力帶來大家一起新的技術(shù)的思考,也可能是跟硬件廠商合作。

媒體:在數(shù)據(jù)及隱私保護(hù)這塊有什么新的變化嗎?

王小川:第一尊重隱私,保護(hù)隱私這是屬于很嚴(yán)肅的話題,得去做遵守,是符合法律和用戶的文化,但是我們知道如果一邊倒,隱私不可侵犯,這個(gè)視角是特別有害的,因?yàn)橹挥袆e人了解你的個(gè)性,才能給你更好的服務(wù)。所以這種情況里,從社會整體的價(jià)值看,個(gè)人能夠把自己一些數(shù)據(jù)開放開,讓企業(yè)知道,可以提供更好的服務(wù),這種事情在安全情況下,該去倡導(dǎo)的一件事情,所以歐盟的做法,最后會把自己坑死掉的,用戶消費(fèi)者也不買賬,最后沒能服務(wù)升級,倒變成整體落后了。

媒體:當(dāng)搜狗新開一項(xiàng)業(yè)務(wù)的時(shí)候,什么是取決于這個(gè)業(yè)務(wù)要不要開,最大的思考維度是什么?

王小川:第一個(gè),我們知道未來趨勢是什么,這個(gè)得知道,這是一個(gè)源頭。但是第二個(gè)事情為什么是我們做,我們在做這事的時(shí)候,跟我們價(jià)值觀也好,跟我們的能力也好,跟我們當(dāng)前的狀態(tài)也好,有什么樣的關(guān)系。為什么是我,這個(gè)事情也是很嚴(yán)肅的事。這個(gè)事最好有全局的使命,如果這是在趨勢里,在你的使命里,你會努力去做。

媒體:在搜狗公司您對自己的定位更像職業(yè)經(jīng)理人還是聯(lián)合創(chuàng)始人?

王小川:其實(shí)我雙重屬性都有,我同時(shí)承擔(dān)著創(chuàng)始人的精神作用和引領(lǐng)方向,但是因?yàn)楣蓹?quán)關(guān)系,我又得像職業(yè)經(jīng)理人干活,這個(gè)是挺獨(dú)一無二的狀態(tài)。

關(guān)鍵詞:

相關(guān)報(bào)道:

    關(guān)閉
     

    相關(guān)新聞