沒有這些大量的人工標註,哪兒來的「智能推薦」?

沒有這些臟亂累,哪兒來的“今日頭條”

本文來源:虎嗅APP

微信id:huxiu_com

作者:石晗旭

早上九點,劉吉手下20多個人就坐在各自的台式機前,眼睛一眨不眨盯著屏幕,沒有任何交流。

要不是手里來回移動的鼠標和屏幕點擊聲,外人會以為這些人統統陷入了「JPG模式」。

他們的屏幕上滿是文字,仔細看去,都是用戶給電商平台的留言:

「我的貨還沒到」,「什麼時候能發貨」,「周二可以發貨嗎」……

數據標註員熟練地給這些語句中出現的「語素」打上各種標籤,包括情感、詞性和用戶訴求。

而這樣的句子,他們一天就要處理2000多條。

只有「學習」大量像這樣打好標籤的數據,所謂的「AI客服」才能真正弄懂人類想表達什麼,從而做出相應的回應。

實際上,無論我們聽到的AI技術有多酷炫,都無法掩蓋其認知水平還不如5歲小孩的事實。

現階段,讓AI提升認知世界能力的最有效途徑仍然是監督學習,劉吉團隊正在做的數據標註是其中最基礎的一環。

就像教小孩子一樣,數據標註員通過打標籤的方式,將數據處理成AI能夠理解的特徵。

這些特徵將指向一個結果,進而通過模型訓練讓AI可以將特徵與結果對應,從而完成對某一類事物的認知——

其實就是一個在人類看起來極為簡單的分類過程。

以自動駕駛為例,標註員們在圖像上框選出汽車、行人等物體輪廓,這些輪廓標籤反饋到AI訓練模型後,無人汽車才能具備分辨周圍物體的能力。

而讓AI達到人類的認知水平,至少需要幾十億甚至幾百億樣本的餵養。

這些樣本只能通過人工一點點的拉框、標點來獲得。

沒錯,智能的背後,是大量的人工

像劉吉這樣的團隊,數據眾包平台——莫比嗨客上還有30萬個。

他們都是註冊在案的公司,平均有20~25個數據標註員,是一個個分佈在貴州、河南、山西等地的小型數據工廠。

根據中科院自動化所研究員王金橋的估算,全國從事這項工作的人已達到千萬級。

這些數據標註員有一個被圈內人默認的外號:AI民工

他們中的大部分人教育水平不高,在各省的貧困縣里,重復著單調的拉框、標點,像一台台每天高速運轉8~15個小時的機器。

在他們看來,這跟在田里、工地里工作最大的不同是能夠安穩地窩在辦公室中——與其說是辦公室,不如說更像一間網吧。

他們機械地忙碌著,拿著微薄的工資(月均不到3000元),全然不知自己參與的是值上千萬的高科技項目。

沒有這些臟亂累,哪兒來的“今日頭條”

▲美國青年文化媒體Vice,在2018年去中國農村小鎮採訪蝸居在那里的青年數據標註員

如今,除了互聯網及人工智能創業公司外,越來越多的政府、學術機構等對AI的投入也在迅速增長。

據IDC、浪潮報告預估,2023年,中國人工智能基礎架構市場將超過80億美金,未來五年年復合增⻓率達到33.8%。

但由於市場的分散,帶著需求的甲方們很難找到經濟又實惠的解決方案,在效率、質量、成本間難免有所取舍。

而對於大大小小的乙方們來說,拓展客戶資源本就不易。

在服務客戶的過程中,依靠自己的能力兼顧團隊產能、任務期限、價格、交付質量等環節毫無疑問是更大的挑戰。

此前曾被彭博等多家知名外媒報道的矽谷公司Scale AI正在通過人機協作解決這些痛點。

Scale開發的軟件可以實現對圖像等數據的自動化標註,標註員們在此基礎上進行審核及修改即可交付結果。

這款軟件實現了Scale首席執行官Alexandr Wang提升數據標註效率的設想,「以往需要幾小時的任務現在只需要幾分鐘就能完成」。

在Scale的啟示下,莫比嗨客、格物鈦(Graviti)等眾包平台也開始探索智能化提升數據標註效率與質量的方式。

他們正在將一部分的數據標註、任務分配、結果管理、激勵機制等環節交給AI完成。

去年,Scale完成1億美元融資,並達成近億美元的銷售額,在成立短短三年內便躋身獨角獸行列。

這不禁讓人期待,中國數據服務巨獸的崛起。

效率與質量之痛

互聯網、AI公司及政府、學術等各類機構的數據需求很難自給自足。

2017年,中國安防巨頭海康威視全年共售出9800多萬個攝像頭。

如果這些攝像頭一年所能產生的數據總量是1500多萬PB,那麼中國的所有數據中心加起來都存不下這麼多數據。

這種爆發增長的非結構化數據,當然需要相當大規模的人工進行處理。

莫比嗨客創始人劉端陽告訴虎嗅,字節跳動在全國一共5萬多員工,其中在濟南、天津、武漢的數據標註員就占到了4萬人。

但字節跳動畢竟只是個例。

如果所有企業或機構都在內部建立動輒幾百人甚至上千、上萬規模的數據標註部門,承擔的人力成本將極為高昂。

而且一旦需求斷檔,這些閒下來的人員如何安排也是很大的問題。

所以,越來越多的公司正在選擇成為甲方,將數據需求通過外包解決。

一方面,可以交給有能力控制整個流程的數據工廠,如管理千人規模標註員的Testin雲測;

另一方面,可以通過眾包平台轉接給分散的從業者們,如百度眾包、京東眾智等。

沒有這些臟亂累,哪兒來的“今日頭條”

▲京東眾智數據標註平台

但問題隨之而來。

前者雖然可以統一地把控交付結果,但成本依然偏高,且其規模仍舊受限,只能在一定周期內滿足一部分需求;

後者將大任務拆分成若干個小任務進行分配的做法固然實用,但由於供應商或兼職標註員的良莠不齊,對數據標註的完成度和準確率均存在極大考驗。

前Uber自動駕駛工程師崔運凱回國後所在的第一家公司就深受其害。

2018年下半年,他們帶著訓練模型的任務找來了國內12家數據標註供應商。

了解需求後,只有2家表示有接這單的能力。

崔運凱選了價格便宜的一家。

沒成想,這家公司不理解數據的最終需求就算了,連基本的標註工具都沒有,竟然用Photoshop在圖片上拉框。

而圈內人都知道,AI只能接受CSV、XML、JSON等特定格式的數據。

「這(用PS)輸出的格式能給AI用麼?」他向虎嗅吐槽。

甲方到底要什麼?

乙方們也在暗自揣度。

隨著AI應用的加速落地,數據工廠們已經清楚地認識到,報價低和提交的標註結果數量不再那麼重要,準確率能否超越95%,達到97%、甚至99%才是自己活下去的命脈。

也就是說,甲方對數據質量和效率的要求早已凌駕於成本之上。

從這個角度來看,行業的缺口仍然很大。

劉端陽創辦莫比嗨客也是因為看到這樣的機會。

「每年中國這個市場的規模差不多有三四百億。但從數據采集和標註的角度研究,國內的公司其實沒有做得特別好的。」

本來想繼續做AI應用創業的崔運凱也決定切入機器學習基礎服務市場,成立AI數據服務平台格物鈦智能科技。

「只有先解決這些痛點,用更自動化的方式提供數據服務,才能為AI創業者提供更好的基礎設施。」他說。

小型玩家難以自救,用AI反哺數據標註的平台方應運而起。

今日頭條的啟示

由於行業不同,自動駕駛、醫療AI、新零售公司對數據標註的任務要求也截然不同;而眾包平台另一端,接單方也各有所長。

要他們找到合適的彼此,無異於大海撈針。

這帶來的另一個後果是,接單方出於生存需求拿來任務就做,數據標註的質量難以得到保證。

如果將這一匹配的過程智能化,今日頭條的內容推薦系統是個很好的參考——它總是在判斷你想要看什麼,而且似乎越來越準。

這也是劉端陽構想中莫比嗨客進化為智能化眾包平台的第一步:打造智能化的任務推薦系統。

因此,在莫比嗨客上線初期,劉端陽用公開的任務對每一個入駐的數據標註團隊進行測試,根據結果從專業領域、標註速度、完成質量等維度對每一個團隊內的每一個數據標註員進行能力畫像與評價。

另一端,劉端陽也給任務打上相應的標籤:任務內容是圖像、音頻、或文本,標註的是人臉、物體還是動作……

之後再通過一定的算法,便能實現標籤相同或相似的任務方與接單方的匹配。

且隨著平台客戶、接單方兩端數量的增加,算法將迭代得更為準確。

去年8月開始做AI數據服務平台Graviti時,崔運凱也發現了標註員之間的極大差別:

「有一些特別喜歡打遊戲的男生,手速特別快,他在做標註的時候有可能比另外一個人要快五倍,而且質量特別特別高。通過算法來自動分發任務,就可以把最好的任務分發給最擅長的人。」

這種任務推薦系統對接單方也很友好。

他們省去了部分自己挖掘客戶的人力與時間成本,可以更多投入任務本身。

大大小小數據標註公司的老板接到任務後,也不再用親自給員工逐一分配工作,因為系統將直接定位到人。

劉端陽將這種模式稱為眾包2.0——

經過智能化的匹配,甲方的需求可以得到更好地滿足,願意為此買單,付給平台傭金。

而乙方也能勞有所值,更積極地在平台上接單。

現在,劉吉每天醒來後不再先為談客戶而焦慮,而是打開莫比嗨客的後台,看看今天團隊要處理多少任務。

沒有這些臟亂累,哪兒來的“今日頭條”

▲莫比嗨客接單團隊負責人的後台界面 / 受訪者供圖

但匹配還只是整個鏈條的第一環。

就算任務分發極為精準,平台也難以避免接單方出現拖延等各種意外情況。

雖然甲方有權減少甚至不支付酬金,但平台很難保證這些問題不會再次出現。

因此,在接單過程中,獎懲機制的動態變化也是十分必要的。

在Graviti平台中,除了對接單方初始能力的掌握,崔運凱還通過模型不斷監測接單方在實際任務中的能力。

譬如,Graviti採用的獎勵模式類似Bing、滴滴,對在線時間長、工作質量一直較高的接單方提供額外的獎勵。

理想狀態來看,這將是一個良性循環——接單方的良好表現使之得到更高的報酬,更高的報酬又促使他繼續在平台接單。

若平台借此留住優質的接單方,則平台也可以獲得更高黏性的客戶。

但相比Graviti這種需要一定時間積累的獎懲方式,莫比嗨客的做法更為直接,將獎懲直接體現在了任務分配的過程中——

假如現在平台上的一個項目有5000萬張圖片需要標註,系統會將其自動打散成5萬個任務組,根據平台畫像匹配後,將任務推薦給符合要求的接單方。

被派單的人可以選擇拒絕,但一旦接單,必須要在15分鐘內完成10張圖片(莫比嗨客打包的最小單位)的試標註;如未完成,任務將直接自動推薦到下個公司。

而正式標註的過程,莫比嗨客也會用極為嚴格的Deadline要求接單方:一個任務包,最多延後10個15分鐘,即2.5小時。

未完成的話,任務將重新分配。

接單方不僅將顆粒無收,還將面臨信用降級,影響日後的派單。

用AI取代「AI民工」

不過在這里需要提醒大家,即便流程進化得再智能,以「數據標註員」為核心的數據標註產業,依然要受制於人工的天花板。

畢竟相比於AI,人工輸出的結果無法完全統一,運算能力也十分有限。

一旦智能化的數據標註能夠替代人工,這意味著數據量和質量指數級的提升,算法成熟得更快,對數據服務行業乃至整個AI產業來說都將是一個極大的里程碑。

也正因如此,開發一款能夠實現自動化數據標註的工具才是這些玩家們真正的競速賽道。

如今,莫比嗨客先運用AI技術對一些不複雜的常見圖像任務進行預標註,再分配給接單方審核、完善並交付結果。

這樣一來,平台上數據的流轉速度提升許多。

「同樣是2000張醫療影像圖片(的標註),我們半天時間就可以交付,一般的平台可能要一周」,劉端陽告訴虎嗅。

在劉端陽的統計中,平台效率的提升可以為客戶節約20%的成本。

目前,莫比嗨客服務的客戶包括騰訊、華為、抖音、科大訊飛等,業務覆蓋自動駕駛、醫療影像、人臉識別和新零售等各個領域。

峰值時,莫比嗨客單天接到2億6000多張圖像的標註任務,日均圖片任務量在7000萬~8000萬左右。

去年全年,平台流水達到2億元。

而晚一年入行的崔運凱也在加緊訓練自己的AI標註模型。

沒有這些臟亂累,哪兒來的“今日頭條”

▲Graviti官網

相比於其他外包形式,他表示當下Graviti可以將效率提升5倍以上。

「理論上限是可以提高150倍。」但他坦承,AI還不能達到同人工一樣的準確率,算法仍需要在精確度和召回中做平衡。

獨角獸正在路上

去年4月創辦Graviti時,崔運凱憑借幾個對數據標註產業進行改進的優秀設想,拿到了紅杉、真格、雲啟、風和的千萬美元級投資。

而再往前一年,投資界大佬,梅花創投創始合夥人吳世春承包了莫比嗨客的天使輪。

投資大佬們雖然在這個領域的動作還不大,但這種試探似乎透露著趨勢的到來。

確實,在AI爆發式增長的這幾年間,作為基礎服務之一的數據標註市場規模增長迅速。

當下中國80億美元的AI基礎架構市場,和33.8%年復合增長率極為誘人。

而莫比嗨客上線近兩年間,劉端陽從客戶一端也感受到了市場的這種張力。

「一些A輪左右的初創公司每年數據標註預算差不過二三十萬,D輪的都是千萬以上。去年,騰訊只是在微信公眾號文章審核上的預算,就是26個億。」

高速增長的市場引來了互聯網巨頭的關注,這個賽道中不乏百度眾包、京東眾智的身影。

大廠的這種操作既能滿足內部需求,對外又能創收,還能在數據標註市場中站下腳跟,等風起後,又能依靠自身的資源優勢迅速擴張,算盤打得很響。

但與大而全相比,後起者都各懷絕技。

莫比嗨客從醫療AI起家,在CT片、病理細胞圖像、病例文本已經形成了先發優勢;Graviti平台則在崔運凱基因的影響下,長於自動駕駛領域。

與行業的緊密聯繫,對創業公司來說就是深入客戶其他需求的開始。

「我們在服務甲方時,還會做很多咨詢工作,包括參與他們的系統架構設計。我們天然和甲方的信任關係會比普通公司要強,因為我們本身就是speak the same language。」崔運凱告訴虎嗅。

美國數據標註的競爭格局較國內形成更早。除了Scale AI這家新晉獨角獸外,Uber收購的Mighty AI、亞馬遜的自動標註服務以及如Hive、Alegion等初創公司也想分下一杯羹。

而知名風投Accel與Peter Thiel的Founders Fund之所以更看好Scale AI,是因為他們認Scale的工具更先進,可以更快又更便宜地完成數據標註。

也正因如此,Scale的軟件去年全年能賣到近億元的銷售額。

沒有這些臟亂累,哪兒來的“今日頭條”

▲Scale AI年僅23歲的創始人Alexandr Wang

據此,我們不難推測,如果國內某一家數據服務公司能夠在這場智能化競速中率先推出高精度的數據標註AI,真正讓交付效率和質量實現飛躍,就能從一眾公司中脫穎而出。

畢竟,這是將數據標註標品化的過程,而標品是規模化的前提。

如今,鮮為人知的數據標註市場已悄然在美國孕育出了一只獨角獸,中國市場卻還一片朦朧。

但在數以千萬計的人員規模、指日可待的千億市場的召喚下,中國獨角獸也理應破土而出。

閱讀原文