打工人開始對著電腦嘀嘀咕咕 AI語音辦公新潮流

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2026-05-30 18:09:44 手機鳳凰網(wǎng)

淘寶上最近流行起了一種鍵盤產(chǎn)品，它只有4個按鍵、1個撥桿和1個麥克風接口，沒有字母鍵，不能打字，售價269元起，搭配大疆麥克風的版本售價400多元。這個產(chǎn)品叫AhaKey-X1，由南京錦心灣科技有限責任公司開發(fā)，今年春節(jié)前后才上線。

打工人開始對著電腦嘀嘀咕咕

它的用途很簡單：方便用戶對AI說話。用戶只需按下語音鍵，對著麥克風口述工作指令，AI將語音轉(zhuǎn)成文字后發(fā)送給Claude、ChatGPT、DeepSeek、Cursor等AI工具執(zhí)行。無論是寫代碼、改方案還是整理會議紀要，用戶都不需要打字，說出來就行，AI會自動把口語化的表達整理成結構化的文本。

AhaKey聯(lián)合創(chuàng)始人兼CTO張心陽表示，自產(chǎn)品上線以來，每月銷量翻倍增長，“6?18”期間公司備貨量已近1000臺，目前正和多家產(chǎn)業(yè)資本及投資機構接洽融資。

一個沒有字母鍵的鍵盤能賣得好，是因為越來越多的人開始用語音代替打字對AI下達工作指令。這種辦公方式最早在程序員中流行，他們用語音向AI描述需求，AI生成代碼。但現(xiàn)在，產(chǎn)品經(jīng)理、律師、內(nèi)容創(chuàng)作者也開始這樣做。張心陽提到，有一個令他印象很深的用戶，是一個40多歲的律師，買了AhaKey之后，不需要打字就能和AI對話完成工作，這讓他和團隊意識到，AI時代的語音辦公需求可能遠比他們預想的要大。

實際上，語音輸入并不是什么新鮮事物。早在1997年，IBM就推出了商用中文語音識別系統(tǒng)ViaVoice，標稱最高識別率95%，預裝在當時的主流PC上。此后近三十年，科大訊飛、搜狗、百度等公司在語音輸入領域持續(xù)投入，產(chǎn)品從PC端延伸到手機端，但語音始終沒有成為主流的輸入交互方式。

張心陽認為，變化發(fā)生在AI大模型成熟之后?！斑^去語音輸入解決的是轉(zhuǎn)文字的問題，沒有解決理解語言的問題?！彼f，過去的語音輸入法是把你說的話逐字記錄下來，錯一個字就得手動改，輸出的文字是口語態(tài)的，人讀起來費勁，但AI大模型改變了接收端，哪怕你說得斷斷續(xù)續(xù)，夾著口誤，AI依然能理解你的意思，再輸出一段通順的文字。

換句話說，當語音輸入的接收方從人變成AI，對識別準確率的要求大幅降低，語音辦公才真正可以實現(xiàn)。根據(jù)不完全統(tǒng)計，截至2026年第一季度末，全球語音AI方向的初創(chuàng)公司融資總額已超過70億美元。

目前，海外語音聽寫應用Wispr正在進行新一輪融資，目標估值接近20億美元；Google把AI聽寫功能Rambler內(nèi)置進默認鍵盤Gboard，覆蓋數(shù)億臺Android手機，免費使用；國內(nèi)，阿里千問在PC端上線AI語音輸入功能；科大訊飛發(fā)布AI眼鏡，其搭載的智能體可以將口語化表達自動整理成結構化文本。

過去二十年來，語音輸入一直是輸入法中一個不太好用的附屬功能，現(xiàn)在，AI大模型正在把它變成一種新潮的辦公方式。即便如今各類語音輸入工具的識別準確率已經(jīng)很高，同聲傳譯、多語種翻譯等功能也陸續(xù)上線，但語音輸入始終沒有成為一種主流的交互方式。大多數(shù)人在線上交流、辦公或日常交互時仍然選擇打字，問題顯然不在識別準確率上。

科大訊飛穿戴設備業(yè)務部總經(jīng)理林會杰提到，傳統(tǒng)語音輸入有一個明顯的問題——語音轉(zhuǎn)寫完成后，“你是沒有辦法直接發(fā)過去的，因為別人一看就知道，你這就是語音打字出來的，觀感不好，雖然說方便了你自己，但是痛苦了別人”。中文語速通常是打字速度的三倍左右，速度優(yōu)勢明確，但“快”只解決了發(fā)送端的效率。一段口語化的文字，夾著語氣詞、重復和跳躍的邏輯，對讀的人來說是負擔。

但AI感受不到這種痛苦——對人來說難以忍受的口語化文字，對AI來說沒有任何理解障礙，人說得再亂再碎，它都能從中提取意圖。語音輸入“方便了自己，痛苦了別人”的問題，在接收方變成AI的那一刻起就消失了。

于是，語音辦公在兩類場景中快速鋪開。第一類場景是，用戶對著Claude、DeepSeek或ChatGPT說話下達指令，AI直接理解意圖并執(zhí)行任務，整個過程不需要產(chǎn)出一段通順的文字給人看。第二類場景是，即便最終還是需要產(chǎn)出文字給人看，AI也在語音轉(zhuǎn)寫之后增加了一層語義處理：自動刪除語氣詞，修正語法，理順邏輯，調(diào)整句式，輸出一段可以直接使用的通順文字。

事實上，過去兩年，一批圍繞AI語音聽寫的創(chuàng)業(yè)公司在快速成長，其中估值最高的是位于美國舊金山的Wispr公司。這家公司2021年成立，最初做腦機接口腕帶（用于無聲語音輸入），2024年年中轉(zhuǎn)型做語音聽寫軟件。公開信息顯示，截至2026年初，Wispr累計完成約8100萬美元融資。根據(jù)Wispr披露的數(shù)據(jù)，持續(xù)使用產(chǎn)品超過6個月的用戶，日常輸入中72%的字符通過語音而非鍵盤完成；產(chǎn)品上線至今，用戶規(guī)模同比增長超過100倍，使用滿12個月的用戶中有70%仍在活躍使用。

訊飛輸入法也在跟進這個方向。2025年底，訊飛輸入法在鍵盤界面新增了一個AI鍵，用戶長按該鍵即可用語音直接向AI下達指令，不需要切換到其他應用?？拼笥嶏w2025年年報披露，訊飛輸入法大模型服務用戶滲透率提升900%，輸入效率提升77%。

這或許可以說明，語音辦公的需求正在從極客圈向更廣泛的職場人群滲透。語音辦公的速度優(yōu)勢很明確，但辦公不只是追求速度。寫一封措辭謹慎的郵件、改一段邏輯復雜的代碼、打磨一份給客戶的方案，這些場景需要的是精確控制，而不是快速表達。能不能覆蓋這些場景，是語音辦公能走多遠的關鍵問題之一。

張心陽認為，語音在表達那一側(cè)，鍵盤在整理那一側(cè)，“你要修改某個東西的時候，思考過程本身對你是有價值的”。語音解決的是把想法快速“倒”出來，編輯和深度思考仍然需要鍵盤。AI對輸入格式的容忍度越來越高，用什么方式給AI下指令變得越來越不重要。在這個前提下，速度最快、認知負擔最低的輸入方式自然會勝出，而且說話時不需要把想法先翻譯成書面語。

但實際上，用語音操作電腦的想法比AI大模型出現(xiàn)得更早。2018年5月15日，錘子科技在北京鳥巢舉辦發(fā)布會，創(chuàng)始人羅永浩彼時在臺上演示了堅果TNT工作站。TNT全稱Touch and Talk，主打語音加觸控操作桌面電腦，用戶對著屏幕說話就能完成搜索、編輯文檔、發(fā)送郵件等操作。這樣一個被錘子科技定義為跨時代的產(chǎn)品，卻在發(fā)布會后被大范圍嘲諷，網(wǎng)友調(diào)侃的“安靜！你吵到我用TNT了！”一度成為彼時互聯(lián)網(wǎng)流傳甚廣的“名?！?。

網(wǎng)友們嘲諷TNT的核心原因是羅永浩在現(xiàn)場演示的語音交互體驗不好。2018年的語音識別技術雖然已經(jīng)能做到較高的準確率，但沒有大模型理解意圖，每一個識別錯誤都是一個需要用戶手動糾正的摩擦點。如果TNT搭載的是一個能理解自然語言的大模型，并且在今天發(fā)布，它面對的將是另一種情形。

大模型解決了“聽不懂”的問題，但“不方便說”的問題仍然存在。在張心陽看來，語音辦公在實際推廣中面對的第一個問題就是噪聲。美國人力資源軟件公司Gusto的聯(lián)合創(chuàng)始人Edward Kim近期在接受媒體采訪時也表示，他在公司內(nèi)部推廣語音辦公工具，自己“現(xiàn)在幾乎一直在對著電腦說話”，但在辦公室里持續(xù)這樣做“確實有點尷尬”。

AhaKey搭配大疆麥克風可以做到低聲識別，在20分貝的音量下仍能保持99%的準確率，20分貝大約相當于深夜臥室里的耳語，坐在旁邊的同事幾乎聽不到你在說什么。當然，在這個問題上也有另外的技術解決方案?？拼笥嶏w最新發(fā)布的AI眼鏡采用了唇動識別結合麥克風陣列的多模態(tài)降噪方案，在展會、地鐵、餐廳等高噪音場景下，識別準確率可以提升30%到40%。

語音辦公面臨的第二個問題是隱私——口述內(nèi)容變成聲波，郵件內(nèi)容、代碼邏輯、商業(yè)想法，周圍的人都能聽到；另外，云端處理的語音數(shù)據(jù)也讓人有安全顧慮。盡管噪音和隱私的問題還沒有完全解決，但這并沒有阻止硬件廠商的快速入場——從錄音卡片、耳機到眼鏡、鍵盤，圍繞語音和AI的辦公硬件正在密集出現(xiàn)，品類和價格帶也在快速拓寬。

對此，林會杰的感受很直接：“對著鍵盤空流淚。我能想到是什么，也能說出來是什么，但打字打出來的時候就很痛苦。”他認為，在想法和文字之間始終隔著一層翻譯，從腦子里的念頭到手指在鍵盤上敲出的字符，中間既有信息損耗，也有時間損耗，但AI大模型正在改變這種狀況。據(jù)其介紹，訊飛的GlassClaw智能體可以把口語化表達自動整理成通順文本，“一句話即可完成從查詢信息到撰寫方案到發(fā)送郵件的全流程”。

張心陽亦稱，其團隊正在探索本地Agent與隱私計算能力。如果這個方向成立，語音加AI的組合將有可能催生一個獨立于PC和手機之外的新辦公硬件品類。當然，鍵盤依然會存在，但它的角色會發(fā)生變化——從主要輸入工具變?yōu)榫庉嫻ぞ摺?/p>

(責任編輯：zx0001)

關閉

打工人開始對著電腦嘀嘀咕咕 AI語音辦公新潮流

相關新聞

今日熱點

頻道熱點