兩個(gè)博士1年干出120億獨(dú)角獸 AI測評引發(fā)資本熱潮!美國加州大學(xué)伯克利分校孵化的創(chuàng)業(yè)公司LMArena成立僅一年,便成為估值17億美元的獨(dú)角獸。該公司通過構(gòu)建全球最大的用戶偏好大模型實(shí)時(shí)數(shù)據(jù)集,滿足市場對AI可靠性評估的需求,受到資本市場的高度認(rèn)可。在短短一年內(nèi),LMArena完成了由Andreessen Horowitz(a16z)、Felicis Ventures等頂尖風(fēng)投領(lǐng)投的兩輪融資,包括種子輪1億美元和A輪1.5億美元的資金。
LMArena源自大型模型系統(tǒng)組織(LMSYS),該組織由多所大學(xué)合作發(fā)起,旨在孵化早期開源和研究項(xiàng)目。2023年,加州大學(xué)伯克利分校的兩位博士生Anastasios N. Angelopoulos和Wei-Lin Chiang受LMSYS資助,創(chuàng)立了Chatbot Arena,即LMArena的前身。Chatbot Arena旨在構(gòu)建一個(gè)公開透明的評估平臺,反映大型語言模型在現(xiàn)實(shí)世界中的應(yīng)用情況。
Chatbot Arena于2023年5月正式推出,用戶可以通過匿名方式選擇更喜歡的答案,對不同的人工智能模型進(jìn)行投票。2025年1月,Chatbot Arena注冊為商業(yè)化實(shí)體LMArena,由Anastasios N. Angelopoulos擔(dān)任首席執(zhí)行官、Wei-Lin Chiang擔(dān)任首席技術(shù)官,Ion Stoica是聯(lián)合創(chuàng)始人兼顧問。三位創(chuàng)始人均具有豐富的學(xué)術(shù)背景和技術(shù)經(jīng)驗(yàn)。
目前,LMArena已經(jīng)吸引了數(shù)百萬參與者,記錄超過300萬次比較,評估了400多個(gè)模型。LMArena利用實(shí)時(shí)評估來緩解大模型基準(zhǔn)測試中可能出現(xiàn)的問題,通過持續(xù)收到來自真實(shí)用戶的新反饋進(jìn)行修正。這些反饋被梳理成開放的排行榜和技術(shù)文章,為大模型的性能提供重要意見,指導(dǎo)LLM的改進(jìn)和持續(xù)開發(fā)。此外,LMArena還與開源和商業(yè)模型供應(yīng)商合作,將他們的最新模型投放到平臺社區(qū)進(jìn)行預(yù)測試。
然而,LMArena的商業(yè)模式也面臨爭議。盡管其在短時(shí)間內(nèi)完成兩輪融資并躍升為獨(dú)角獸,但其測評內(nèi)容的可靠性仍受到質(zhì)疑。一些人認(rèn)為,LMArena完全依賴于不受控制的志愿者在平臺上進(jìn)行的游戲化勞動(dòng),用戶可能沒有動(dòng)力認(rèn)真思考作答。此外,用戶更傾向于選擇帶有表情符號和冗長的內(nèi)容,而不是實(shí)質(zhì)性高質(zhì)量的內(nèi)容。因此,這種測評模式可能無法真正篩選出能生產(chǎn)高質(zhì)答案的大模型。
盡管如此,LMArena仍然獲得了知名風(fēng)投機(jī)構(gòu)的支持。硅谷著名風(fēng)險(xiǎn)投資基金a16z合伙人Anjney Midha表示,他們投資LMArena是因?yàn)榭吹狡湓谌斯ぶ悄茉u估領(lǐng)域的潛力。隨著政府機(jī)構(gòu)和受監(jiān)管行業(yè)的參與,中立客觀的評估變得越來越重要。LMArena構(gòu)建的規(guī)模最大、基于人工智能輸出的人類偏好實(shí)時(shí)數(shù)據(jù)集,使其在人工智能評估領(lǐng)域具備先發(fā)優(yōu)勢。
市場上還有其他大模型測評企業(yè),如LiveBench、OpenRouter Rankings以及國內(nèi)的OpenCompass和SuperCLUE。這些平臺各有特色,但在商業(yè)化程度上相對較低。LMArena能否在激烈的競爭中保持領(lǐng)先地位,還需時(shí)間驗(yàn)證。
在2024年《福布斯》美國富豪榜上,36歲的Edwin Chen以180億美元的身家成為最年輕的億萬富豪
2025-09-29 10:25:5685后華裔理工男干出千億獨(dú)角獸