張心陽(yáng)認(rèn)為,語(yǔ)音在表達(dá)那一側(cè),鍵盤(pán)在整理那一側(cè),“你要修改某個(gè)東西的時(shí)候,思考過(guò)程本身對(duì)你是有價(jià)值的”。語(yǔ)音解決的是把想法快速“倒”出來(lái),編輯和深度思考仍然需要鍵盤(pán)。AI對(duì)輸入格式的容忍度越來(lái)越高,用什么方式給AI下指令變得越來(lái)越不重要。在這個(gè)前提下,速度最快、認(rèn)知負(fù)擔(dān)最低的輸入方式自然會(huì)勝出,而且說(shuō)話(huà)時(shí)不需要把想法先翻譯成書(shū)面語(yǔ)。
但實(shí)際上,用語(yǔ)音操作電腦的想法比AI大模型出現(xiàn)得更早。2018年5月15日,錘子科技在北京鳥(niǎo)巢舉辦發(fā)布會(huì),創(chuàng)始人羅永浩彼時(shí)在臺(tái)上演示了堅(jiān)果TNT工作站。TNT全稱(chēng)Touch and Talk,主打語(yǔ)音加觸控操作桌面電腦,用戶(hù)對(duì)著屏幕說(shuō)話(huà)就能完成搜索、編輯文檔、發(fā)送郵件等操作。這樣一個(gè)被錘子科技定義為跨時(shí)代的產(chǎn)品,卻在發(fā)布會(huì)后被大范圍嘲諷,網(wǎng)友調(diào)侃的“安靜!你吵到我用TNT了!”一度成為彼時(shí)互聯(lián)網(wǎng)流傳甚廣的“名?!?。
網(wǎng)友們嘲諷TNT的核心原因是羅永浩在現(xiàn)場(chǎng)演示的語(yǔ)音交互體驗(yàn)不好。2018年的語(yǔ)音識(shí)別技術(shù)雖然已經(jīng)能做到較高的準(zhǔn)確率,但沒(méi)有大模型理解意圖,每一個(gè)識(shí)別錯(cuò)誤都是一個(gè)需要用戶(hù)手動(dòng)糾正的摩擦點(diǎn)。如果TNT搭載的是一個(gè)能理解自然語(yǔ)言的大模型,并且在今天發(fā)布,它面對(duì)的將是另一種情形。
大模型解決了“聽(tīng)不懂”的問(wèn)題,但“不方便說(shuō)”的問(wèn)題仍然存在。在張心陽(yáng)看來(lái),語(yǔ)音辦公在實(shí)際推廣中面對(duì)的第一個(gè)問(wèn)題就是噪聲。美國(guó)人力資源軟件公司Gusto的聯(lián)合創(chuàng)始人Edward Kim近期在接受媒體采訪時(shí)也表示,他在公司內(nèi)部推廣語(yǔ)音辦公工具,自己“現(xiàn)在幾乎一直在對(duì)著電腦說(shuō)話(huà)”,但在辦公室里持續(xù)這樣做“確實(shí)有點(diǎn)尷尬”。
AhaKey搭配大疆麥克風(fēng)可以做到低聲識(shí)別,在20分貝的音量下仍能保持99%的準(zhǔn)確率,20分貝大約相當(dāng)于深夜臥室里的耳語(yǔ),坐在旁邊的同事幾乎聽(tīng)不到你在說(shuō)什么。當(dāng)然,在這個(gè)問(wèn)題上也有另外的技術(shù)解決方案。科大訊飛最新發(fā)布的AI眼鏡采用了唇動(dòng)識(shí)別結(jié)合麥克風(fēng)陣列的多模態(tài)降噪方案,在展會(huì)、地鐵、餐廳等高噪音場(chǎng)景下,識(shí)別準(zhǔn)確率可以提升30%到40%。