圖片來源@視覺中國

鈦媒體注:本文來源于微信公眾號億歐汽車(ID:EO-AUTO),作者 | 郭懷毅,鈦媒體經授權發(fā)布。

如果說以大模型為代表的人工智能將決定自動駕駛,那么,誰來決定大模型呢?  毫無疑問,這個答案就是——數(shù)據(jù)。

到2030年,全球自動駕駛數(shù)據(jù)標注市場規(guī)模將比現(xiàn)在擴大6倍,從21億美元增長到127.5億美元,逼近千億元人民幣。對于極度需要數(shù)據(jù)支撐的大模型和自動駕駛產業(yè)來說,數(shù)據(jù)服務商正在迎來歷史性的機遇。

但正所謂福兮禍所依,教會徒弟,餓死師傅的故事似乎正在數(shù)據(jù)服務產業(yè)上演。數(shù)據(jù)服務們提供的數(shù)據(jù)質量越高,數(shù)量越多,大模型的成長速度就越快,人工智能標注對人工標注構成的挑戰(zhàn)就越大。

一場貪食蛇游戲開始了。

“你需要一個像素、一個像素,沿著車輛的輪廓圈出來。”

2022年,曾有媒體親自到無人駕駛汽車數(shù)據(jù)標注平臺體驗了幾天標注員的工作。和外界想象的簡單畫個圈就完成標注不同,“像素級”的標注要求工作人員精確勾勒出目標輪廓。

如果是標注激光雷達數(shù)據(jù),工作人員將會更加辛苦,有些操作手冊就有60多頁。所以,標注工作會消耗大量的時間。3至6個小時,一個新手也只能標注完成40張圖片中的數(shù)據(jù)。即使是專業(yè)的標注工作者,完成50張圖片的標注也需要至少四個小時。

雖然標注工作繁瑣且辛苦,但是對于智能電動汽車,特別是自動駕駛產業(yè)來說,數(shù)據(jù)的標注和整理是必不可少的一環(huán)。

2023年底,小鵬汽車董事長、CEO何小鵬就曾表示,汽車品類將從軟件定義汽車逐步進化至人工智能(AI)定義汽車的時代,AI正在重新定義智能電動汽車的技術架構以及車企的商業(yè)模式,并將成為成功車企的必備核心能力。

在何小鵬的判斷中,AI將是決定未來汽車產業(yè)發(fā)展的決定因素。那么,什么又將決定AI的發(fā)展呢?答案是:數(shù)據(jù)。

華為數(shù)據(jù)存儲產品線總裁周躍峰就曾表示:“大模型時代,數(shù)據(jù)決定AI智能的高度。”

事實上,各大車企和自動駕駛企業(yè)早就著手采集數(shù)據(jù),并以此訓練基于端到端大模型的自動駕駛。據(jù)毫末智行數(shù)據(jù)智能科學家賀翔估算,在端到端的自動駕駛開發(fā)過程中,數(shù)據(jù)就會占據(jù)80%以上的研發(fā)成本。

所以,自動駕駛數(shù)據(jù)服務產業(yè)的爆發(fā),也就有了堅實的市場基礎。據(jù)第三方調研機構Research and Markets預測,到2030年,全球自動駕駛數(shù)據(jù)標注市場規(guī)模將比現(xiàn)在擴大6倍,從21億美元增長到127.5億美元。

在這樣的背景之下,中國的自動駕駛數(shù)據(jù)服務產業(yè),也正在隨著中國智能汽車產業(yè)的快速增長而爆發(fā)。

 數(shù)據(jù)服務商,崛起進行時

2022年,因為商業(yè)落地的前景渺茫,全球自動駕駛產業(yè)集體進入了寒冬之中。傳統(tǒng)的行業(yè)龍頭Mobileye股指一度縮水超過一半,大眾和福特汽車共同投資數(shù)十億美元的自動駕駛初創(chuàng)企業(yè)Argo更是直接倒閉。

但是,當Open AI發(fā)布基于生成式Transformer大語言模型(LLM)的ChatGPT后,智能駕駛行業(yè)似乎迎來了轉角的曙光。理想汽車創(chuàng)始人、CEO李想馬上就捕捉到了ChatGPT帶來的機遇,并得出“AI技術路徑逐漸清晰”的結論。

2023年8月, 馬斯克親自開啟一場特斯拉完全自動駕駛能力(下稱:FSD)Beta V12的直播,引發(fā)百萬人線上圍觀。據(jù)悉,F(xiàn)SD Beta V12正是特斯拉有史以來收割的端到端自動駕駛系統(tǒng)。

“特斯拉的技術路線,其實和Open AI的ChatGPT是一樣的。”此前,清華大學計算機系教授、清華大學人工智能研究院視覺智能研究中心主任鄧志東在接受億歐汽車專訪時就表示,應該爭取利用大語言模型為中國的自動駕駛產業(yè)賦能。

為了快速搭建屬于自己的端到端自動駕駛能力,各大車企都已下場投入,重金研發(fā)。與此同時,自動駕駛數(shù)據(jù)的重要性也自然水漲船高。畢竟,沒有質量俱佳的自動駕駛數(shù)據(jù),就無從訓練端到端的自動駕駛大模型。

而且,自動駕駛數(shù)據(jù)因為場景比較特殊,車企對數(shù)據(jù)的質量要求也更高,這就對相關企業(yè)提出了更高的技術要求。數(shù)據(jù)標注服務商—整數(shù)智能CEO林群書就曾公開表示,因為國內車企都在對標特斯拉的數(shù)據(jù)閉環(huán)方案,數(shù)據(jù)服務商如果想服務這個場景,就需要有專門的自動化標注平臺、專業(yè)標注工具以及一整套完整的解決方案。

其次,中國自動駕駛場景的復雜度遠超歐美,相應的數(shù)據(jù)標注整理難度和數(shù)據(jù)體量也大幅增加。曾有標注企業(yè)的高管對媒體表示,海外客戶的需求,只要將人和障礙物標注出來即可,但國內客戶往往要求標注路上的所有細節(jié)且精確程度要求很高。

在龍貓數(shù)據(jù)CEO昝智看來,國內車企之所以對數(shù)據(jù)服務商的要求如此之高,因為數(shù)據(jù)標注質量決定了各家主機廠在自動駕駛競爭中成敗的關鍵,一旦質量不達標,就要推翻重來,現(xiàn)在所有主機廠都耗不起這個時間。

最后,因為各大車企都有自己的一套數(shù)據(jù)標準,這就導致數(shù)據(jù)標注不斷重復。哪怕是相同的道路數(shù)據(jù),也要根據(jù)不同企業(yè)的標準進行標注,自動駕駛數(shù)據(jù)服務商的業(yè)務量自然更多。

正因為上述因素,各大車企都在加大數(shù)據(jù)標注領域的資金投入力度。有媒體報道稱,國內多家主機廠已將2023年數(shù)據(jù)標注的投入預算從百萬級別直接飆升到了數(shù)千萬級別。

隨著行業(yè)需求的爆發(fā),自動駕駛數(shù)據(jù)服務企業(yè)也在最近兩年完成多筆融資。

據(jù)億歐汽車不完全統(tǒng)計,自2020年以來,已有12家自動駕駛數(shù)據(jù)服務商完成不同程度的融資。其中9家是在2022年和2023年完成了最新一輪融資。

其中,海天瑞聲更是在2021年8月登陸科創(chuàng)版。截至3月5日收盤,海天瑞聲市值為39.07億元人民幣。值得注意的是,作為美國人工智能領域的頭部數(shù)據(jù)服務商,硅谷獨角獸Scale AI估值曾達73億美元,約合人民幣525.36億元。

隨著大模型深度賦能自動駕駛,數(shù)據(jù)服務商的市場前景進一步市場認可。但是,大模型和自動駕駛產業(yè)的發(fā)展也正在對數(shù)據(jù)服務商構成挑戰(zhàn)。

 一場貪食蛇游戲?

吃掉更多的食物,長成更大的體型,最后被自己毀滅。作為一款經典手機游戲,貪食蛇的邏輯早已被外界熟知。

隨著大模型的發(fā)展,數(shù)據(jù)服務商似乎也面臨著貪食蛇游戲的邏輯和結局。服務商提供的數(shù)據(jù)質量越優(yōu)、數(shù)量越多,大模型的成熟度就越高。但是反過來,越成熟的大模型就越有可能完成數(shù)據(jù)的自動標注,從而取代數(shù)據(jù)服務商的角色。

2023年,美國工程院院士、智源研究院原理事長張宏江院士在一場有關大模型的演講中就曾表示,隨著算法的進步,數(shù)據(jù)層面發(fā)生了非常明顯的改變。從人工標注,到開放的數(shù)據(jù)集分享,現(xiàn)在發(fā)展到數(shù)據(jù)自動標注和深層研究,這是國內數(shù)據(jù)標注領域正在的現(xiàn)實。

在和多家自動駕駛企業(yè)溝通的過程中,億歐汽車同樣發(fā)現(xiàn),使用AI標注數(shù)據(jù)已經被廣泛應用。

“現(xiàn)在,大模型的能力已經很強了,我們完全可以找一個開源并且能力強的大模型,通過它來提高數(shù)據(jù)標注的效率。”一家自動駕駛初創(chuàng)企業(yè)的高層對億歐汽車表示,以前特斯拉的標注團隊就超過千人,但是現(xiàn)在借助大模型,我們現(xiàn)在根本不需要這么多人。

2023年4月,在海康威視的Q1財報會議上,曾有投資者詢問過類似的問題。對此,海康威視方面表示:“用同樣的人力投入,數(shù)據(jù)標注的數(shù)量可以提升10倍。”如果反過來理解??低曔@句話,那也就是說,借助大模型,完成同樣的工作量只需要以前10%的人力。

商湯絕影產品總監(jiān)Larry在接受媒體采訪時,也表示目前商湯絕影智能駕駛主要模型訓練所依賴的標注已經大部分采用大模型自動標注技術,全自動標注和半自動標注(采用人工抽樣質檢)基本已經代替了人工標注,成本和時間周期均大幅下降。

面對自己“喂養(yǎng)”出來的大模型,人工標注的未來在哪里呢?

“我是自動標注的絕對支持者。”博登智能CEO趙捷曾表示,他雖然支持人工智能的自動標注,但自動標注并不意味著無人標注。他做了一個比喻,現(xiàn)在擁有自動化生產線的工廠并不是無人工廠。

一家自動駕駛初創(chuàng)公司的算法工程師也對億歐汽車表示,目前對AI標注更多的還是取代初級標注工作,更復雜的一些項目離不開人工,或者需要人工配合AI才能完成工作。

“整個數(shù)據(jù)服務市場將重新洗牌。”海天瑞聲CEO王曉東曾表示,大模型時代的到來會讓研發(fā)能力弱,資源少的企業(yè)被快速淘汰,數(shù)據(jù)服務市場的集中度會進一步提升。由此可見,面對來自人工智能標注的挑戰(zhàn),數(shù)據(jù)服務商必須及時調整自己以適應大模型時代的數(shù)據(jù)標注業(yè)務。  

 結語 

雖然面臨著人工智能帶來的挑戰(zhàn),但現(xiàn)階段人工標注依舊會存在,再疊加自動駕駛和大模型產業(yè)的快速發(fā)展,數(shù)據(jù)服務市場的規(guī)模還會進一步增長。

龍貓數(shù)據(jù)CEO昝智就曾預測,機會窗口要到2030年才能完全釋放出來。

但是,目前數(shù)據(jù)服務行業(yè)的發(fā)展依舊面臨著眾多挑戰(zhàn)。除了人工智能標注之外,數(shù)據(jù)保護手段的欠缺也是行業(yè)必須面對的問題。曾有媒體報道稱,一家AI大廠的負責人曾表示,在中國,你能花錢買到的數(shù)據(jù),別人也可以買到。誰花錢做了高質量數(shù)據(jù),別人就可以用低成本拿到,反之亦然。

在億歐汽車接觸的多家自動駕駛企業(yè)中,很多企業(yè)都選擇在公司內部標注和梳理最核心的數(shù)據(jù),而不是將其交給第三方。

所以,如何能夠在處理數(shù)據(jù)的過程中保護相關企業(yè)的權益,從而最大發(fā)揮專業(yè)的自動駕駛數(shù)據(jù)服務商的能量,是全行業(yè)都必須共同面對和急需解決的問題。

本文系作者 億歐 授權鈦媒體發(fā)表,并經鈦媒體編輯,轉載請注明出處、作者和本文鏈接。
本內容來源于鈦媒體鈦度號,文章內容僅供參考、交流、學習,不構成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內容

快報

更多

09:39

電力板塊局部反復活躍,晉控電力、廣西能源雙雙漲停

09:39

國家統(tǒng)計局:1—2月份規(guī)模以上工業(yè)企業(yè)實現(xiàn)營業(yè)收入20.84萬億元,同比增長5.3%

09:38

農藥板塊盤初沖高,蘇利股份直線漲停

09:37

軍工板塊盤初拉升,建設工業(yè)漲停

09:37

港股存儲概念股走低,兆易創(chuàng)新跌近6%

09:36

化工板塊逆勢活躍,蘇利股份等多股漲停

09:36

國家統(tǒng)計局:1-2月計算機、通信和其他電子設備制造業(yè)利潤同比增長2倍

09:34

國家統(tǒng)計局:1-2月份全國規(guī)模以上工業(yè)企業(yè)利潤增長15.2%

09:30

天津臨港綜合保稅區(qū)今日正式封關運行

09:29

A股開盤:三大指數(shù)低開近1%,CPO、先進封裝、存儲芯片等概念走弱

09:26

港股黃金股走低,山東黃金跌近6%

09:26

對沖基金Millennium撤資,與Engineers Gate合作告終

09:23

央行開展1462億元7天期逆回購操作

09:22

港股開盤:恒生指數(shù)低開0.35%,恒生科技指數(shù)低開0.44%

09:17

人民幣兌美元中間價報6.9141,下調85點

09:15

日本政府通過2026財年臨時預算案

09:10

“無人機動力系統(tǒng)第一股”即將上市,三瑞智能正式開啟創(chuàng)業(yè)板網(wǎng)上申購

09:03

美國法院駁回社媒公司X指控樂高、瑪氏等品牌“非法抵制”的訴訟

09:01

國內商品期貨開盤,滬銀跌超5%

09:00

富時中國A50指數(shù)期貨在上一交易日夜盤收跌0.08%的基礎上低開,現(xiàn)跌0.19%

掃描下載App