有10萬件大小不同的商品,要平均放到1萬個(gè)箱子里,應(yīng)該如何分配?對于人類來說,這是一個(gè)可解的問題。
如果問題更難一點(diǎn):10萬件商品隨時(shí)變大變小,而且有“礦泉水不能壓在薯片上”等大量限制條件,如何在幾秒鐘內(nèi)給出最均衡的裝箱方案?
阿里巴巴的工程師每天都會(huì)面對這類問題。無數(shù)應(yīng)用對服務(wù)器的需求每時(shí)每刻都在變化,如何才能把這些應(yīng)用均衡地分配到數(shù)萬臺(tái)不同規(guī)格的機(jī)器上。為了解放人類工程師并能夠更好地分配計(jì)算資源,11月6日,阿里巴巴計(jì)算資源AI分配官“達(dá)靈”正式上任,準(zhǔn)備迎接天貓“雙11”的挑戰(zhàn)。
實(shí)習(xí)期間,達(dá)靈將數(shù)據(jù)中心資源分配率拉升到了90%以上,在部分業(yè)務(wù)中節(jié)省了一半服務(wù)器,并且可以兩秒鐘鎖定異常機(jī)器,命中率94%。
節(jié)省一半服務(wù)器
打開手機(jī)淘寶,首頁可以看到“有好貨”、“猜你喜歡”等常用功能模塊。此前,人工為每一個(gè)模塊分配服務(wù)器數(shù)量并監(jiān)督運(yùn)行情況。對于工程師來說,工作量和難度挑戰(zhàn)巨大。
“伴隨‘雙11’規(guī)模的逐年暴漲,這樣的工作已經(jīng)不適合人來做了?!?阿里巴巴資深搜索研發(fā)專家鄭南說。為此,阿里巴巴搜索團(tuán)隊(duì)對“達(dá)靈”進(jìn)行了大量訓(xùn)練和工程化,在實(shí)習(xí)期“達(dá)靈”就完全替代了人工,在推薦平臺(tái)智能調(diào)度方面將資源分配率提高了一倍,這相當(dāng)于節(jié)省了一半的機(jī)器。
“這套算法能夠快速給出最優(yōu)的部署方案,并且根據(jù)訪問量不斷搬運(yùn)應(yīng)用和數(shù)據(jù),確保沒有一臺(tái)機(jī)器偷懶”。鄭南說,我們要做的就是不斷用數(shù)據(jù)喂養(yǎng)她,提供表格數(shù)據(jù)大小、訪問量以及目前的部署方案等信息,剩下的就是喝著茶看她的表演?!八踔量梢栽诰€上克隆一個(gè)真實(shí)的服務(wù),自己進(jìn)行壓力測試,以判斷方案是否最優(yōu)。”
兩秒隔離異常機(jī)器
阿里巴巴遍布全球的數(shù)據(jù)中心如果有一臺(tái)機(jī)器發(fā)生異常,未被及時(shí)處理,會(huì)帶來什么損失?天貓“雙11”期間,可能會(huì)使近百萬用戶下單失敗。
為了避免這種情況,每年“雙11”都會(huì)有大量的工程師緊盯著集群的健康情況。如果發(fā)現(xiàn)異常機(jī)器,馬上進(jìn)行手工隔離甚至直接下線,俗稱“殺機(jī)器”。
但從出現(xiàn)異常、被發(fā)現(xiàn)到處理完成,整個(gè)過程有時(shí)長達(dá)數(shù)分鐘。阿里巴巴調(diào)度系統(tǒng)資深專家丁宇說,“之前已經(jīng)做到了人的極限。去年開始探索AI,把時(shí)間、負(fù)載、服務(wù)狀態(tài)等不確定因素通過數(shù)據(jù)算法關(guān)聯(lián),最終找到了解法”。
今年丁宇團(tuán)隊(duì)對“達(dá)靈”進(jìn)行深度改裝,實(shí)現(xiàn)了對異常機(jī)器更精準(zhǔn)、快速的探測。算法每天會(huì)采集29億條機(jī)器運(yùn)營狀態(tài),在之前的測試中,日均處理異常機(jī)器1000次左右,在大促期間調(diào)度準(zhǔn)確率達(dá)到94%,時(shí)間只需要兩秒鐘。
AI頻頻亮相“雙11”
“其實(shí)‘達(dá)靈’的前身真的是倉庫管理員,就是為了解決包裹裝箱的難題”,阿里巴巴iDST機(jī)器學(xué)習(xí)算法負(fù)責(zé)人朱勝火透露。
一年前,iDST和菜鳥網(wǎng)絡(luò)的算法工程師共同研發(fā)了一套算法,能夠在顧客下單的瞬間,對商品的屬性、數(shù)量、重量、體積甚至擺放的位置都綜合進(jìn)行計(jì)算,可迅速地與箱子的長寬高和承重量進(jìn)行匹配,并且計(jì)算出需要的幾個(gè)箱子,商品在箱子里面如何擺放最節(jié)省包裝。整個(gè)計(jì)算過程不足1秒。
AI介入后,菜鳥網(wǎng)絡(luò)的倉庫較過去減少5%以上的包裝材料。以2015年天貓“雙11”當(dāng)天產(chǎn)生的約4.67億包裹數(shù)來算,如果用上這個(gè)技術(shù),一天能節(jié)省2300萬個(gè)箱子。
朱勝火介紹,“基于同樣的理念,我們將這套算法帶到了數(shù)據(jù)中心,研發(fā)出了‘達(dá)靈’?!_(dá)靈’的工作首先是在集群監(jiān)控?cái)?shù)據(jù)之上,建立起很多個(gè)深度學(xué)習(xí)、在線學(xué)習(xí)的模型,由此對集群內(nèi)每一臺(tái)機(jī)器、每一個(gè)應(yīng)用,當(dāng)前和未來的狀態(tài)都了然于胸。在此基礎(chǔ)上,‘達(dá)靈’通過應(yīng)用強(qiáng)化學(xué)習(xí)、組合優(yōu)化等技術(shù),可以在復(fù)雜環(huán)境中自行學(xué)習(xí)判斷,做出一系列比如錯(cuò)峰排布、碎片規(guī)整等聰明的決策,從而全局最優(yōu)化集群的資源分配率以及穩(wěn)定性”。
除了“達(dá)靈”以外,機(jī)器運(yùn)營小二、機(jī)器導(dǎo)購員、智能客服、AI設(shè)計(jì)師、機(jī)器揀貨員、機(jī)房巡邏員等新物種已在天貓“雙11”前夕集中上崗。