
21世紀(jì)經(jīng)濟(jì)報(bào)道記者 易思琳
今年前三個(gè)季度,國內(nèi)20萬元以上乘用車市場份額占比30%,13萬元以下市場份額則高達(dá)50%,但后者多數(shù)車型尚未配備城區(qū)輔助駕駛功能。這一廣闊的藍(lán)海市場,正吸引著地平線、Momenta等智駕廠商加速布局,全力搶占市場先機(jī)。
今年4月,地平線正式推出基于征程6系列芯片的城區(qū)輔助駕駛解決方案——HSD(Horizon SuperDrive)。盡管并非該賽道的先行者,但地平線已快速邁入大規(guī)模量產(chǎn)階段。11月,隨著星途ET5正式上市,地平線的HSD解決方案同步實(shí)現(xiàn)量產(chǎn);另一款搭載該方案的車型深藍(lán)L06也于同期發(fā)售。兩款車型上市短短兩周后,地平線HSD的激活量便突破12000輛,量產(chǎn)落地成效顯著。
除了推出全新的解決方案,地平線還通過生態(tài)拓展加速市場滲透。12月初的地平線技術(shù)生態(tài)大會(huì)上,公司公布了兩大生態(tài)推進(jìn)舉措:一是拓展生態(tài)合作模式,新增算法服務(wù)模式“HSD Together”,并已與日本電裝、大眾的合資公司CARIZON(酷睿程)、HCT(智駕大陸)達(dá)成合作;二是引入更多生態(tài)合作伙伴,元戎啟行、卓馭等企業(yè)已加入其生態(tài)體系。
缺乏芯片研發(fā)能力的算法公司、軟硬研發(fā)實(shí)力薄弱的車企,正紛紛向地平線聚攏。地平線接下來的目標(biāo),是讓城區(qū)輔助駕駛功能下沉至10萬元國民車型,實(shí)現(xiàn)技術(shù)普惠,并計(jì)劃在未來3-5年內(nèi)達(dá)成千萬級(jí)量產(chǎn)規(guī)模。
地平線敢于定下這一目標(biāo),底氣源于其在智駕端到端方案上的長期堅(jiān)守與深耕。據(jù)地平線工程師透露,公司自2024年底便集中力量主攻端到端技術(shù),90%的研發(fā)人力均投入到該方案的研發(fā)與量產(chǎn)落地工作中。
圍繞智駕技術(shù)路線分野、端到端的發(fā)展前景等核心話題,21世紀(jì)經(jīng)濟(jì)報(bào)道記者與地平線副總裁呂鵬進(jìn)行了一次對(duì)話,以下是對(duì)話實(shí)錄(經(jīng)摘編):
WA/VLA皆需端到端支撐
《21汽車·一見Auto》:地平線是目前行業(yè)內(nèi)少數(shù)堅(jiān)定選擇端到端路線的廠商?,F(xiàn)在市面上的智駕方案非常多,有很多公司已經(jīng)開始選擇做VLA,也有一些公司像地平線一樣深耕端到端。在外界環(huán)境不斷變化的背景下,地平線為何堅(jiān)信自己能把端到端做好?
呂鵬:核心底氣來自地平線過去豐富的技術(shù)積累。最早的端到端其實(shí)是地平線的uni AD,當(dāng)時(shí)獲得CVPR的最佳論文,那是我們最早基于Transformer提出的端到端架構(gòu)?,F(xiàn)在不管是VLA還是World Model,本質(zhì)上來說是沒有沖突的,因?yàn)樗械臇|西都建立在要有一個(gè)非常完整的端到端底座。本身的技術(shù)架構(gòu)都是端到端,在這里面,你是否要引入新的模態(tài)?我們的判斷是:如果端到端做得不夠堅(jiān)固,性能沒有做得足夠好,是很難去把更多新東西帶進(jìn)來解決這些問題的。
端到端,其實(shí)相當(dāng)于是人的一個(gè)直覺模型。如果你的直覺模型不夠完善,光靠思考推理去解決一些場景是很難的,而且這些思考推理反倒會(huì)帶來一些新的問題。
我們的堅(jiān)定,源于對(duì)技術(shù)邏輯的清晰認(rèn)知,既要把每一步的技術(shù)做扎實(shí),又要充分了解下一代技術(shù)的優(yōu)勢與短板,要在解決問題的同時(shí)把優(yōu)勢發(fā)揮到最大。而這一切的核心,在于軟硬結(jié)合,用更好的硬件去支撐大算力,同時(shí)通過軟硬協(xié)同的優(yōu)化去釋放出來更多的性能,真正在體驗(yàn)端為消費(fèi)者帶來收益,而不光是在一些名詞上獲得收益。
《21汽車·一見Auto》:地平線HSD的端到端版本,最核心的技術(shù)亮點(diǎn)是什么?這一技術(shù)方案的基座又是什么?
呂鵬:端到端往簡單了說,是很好描述的,就是光子進(jìn),軌跡再輸出。目前,地平線是除特斯拉之外,少數(shù)擁有真正意義上最完整的一段式端到端系統(tǒng)的企業(yè)。過去很多系統(tǒng),雖然營銷的詞會(huì)講端到端,但有很多都是兩段式的端到端。
《21汽車·一見Auto》:什么是兩段式端到端?
呂鵬:所謂兩段式的端到端,并不是一個(gè)模型,而是一個(gè)感知的模型加上一個(gè)規(guī)控的模型。在規(guī)控的模型里,你會(huì)發(fā)現(xiàn)信息的傳遞是丟失的,因?yàn)檫@個(gè)模型的訓(xùn)練是靠感知白名單的檢測結(jié)果去進(jìn)行訓(xùn)練的。而真正的端到端,它其實(shí)有很多高維的feature是在模型里面進(jìn)行無損的傳遞,信息量要更高,就像人開車一樣,你可能不知道那個(gè)路口具體有多少人會(huì)離你多遠(yuǎn),但你能憑借感覺很好地開過去,這種感覺就是一段式端到端才能提供的。
《21汽車·一見Auto》:為什么會(huì)有兩段式的端到端存在?
呂鵬:一段式的端到端做得不夠完善的話,它的輸出軌跡有特別多的缺陷,這會(huì)導(dǎo)致模型沒辦法控車,怎么辦呢?大家就退而求其次地去解模型,加上了一堆后處理,對(duì)橫向、縱向的軌跡做修正。當(dāng)你不斷通過規(guī)則去做修正的時(shí)候,這些規(guī)則就會(huì)限制模型的上限,端到端模型的優(yōu)勢又發(fā)揮不出來,會(huì)有很強(qiáng)烈的橫縱向割裂感。比如開車的時(shí)候,車可能突然橫向打一把再加速,正常人不會(huì)這么開。
《21汽車·一見Auto》:如何分辨一段式和兩段式端到端?
呂鵬:消費(fèi)者不太需要關(guān)注這些名詞。對(duì)于消費(fèi)者角度來說,最直觀的就是開車時(shí)他是否真的愿意在城市里去使用這個(gè)系統(tǒng),有沒有足夠的安心?對(duì)于從業(yè)者來說,分辨起來其實(shí)沒有那么復(fù)雜,主要看模型輸出軌跡的連貫性和擬人性好不好,特別是交互情況下模型的整個(gè)動(dòng)作是按照?qǐng)鼍皊tep by step的,還是行云流水的。這是一段式端到端中很重要的判斷點(diǎn)。只有行云流水的時(shí)候,里面才沒有太多的規(guī)則、行動(dòng)比較一致,不會(huì)有場景的割裂感。
《21汽車·一見Auto》:此前體驗(yàn)地平線HSD的時(shí)候,有產(chǎn)品經(jīng)理分享了一個(gè)非常小的tips——變道的時(shí)候,旁邊有一個(gè)框出現(xiàn)的就是兩段式,沒有框的是一段式,能這樣簡單理解嗎?
呂鵬:這種說法不算是特別(嚴(yán)謹(jǐn))。這只是HMI上的顯示問題,廠家不做顯示,也能達(dá)到一樣的結(jié)果。核心還是看是否連貫,以及能否控制車速。正常來說,你在一段式的端到端里面是沒有辦法設(shè)定到規(guī)定車速的,因?yàn)閷?duì)于模型來說,你只能告訴他期望的車速是多少,它會(huì)朝著期望的車速去逼近,但未必會(huì)一定到那個(gè)車速。
《21汽車·一見Auto》:智駕的技術(shù)路線,不同的車企和供應(yīng)商都給了不同的方案。理想、元戎啟行選擇了VLA,華為和小鵬選擇去掉了“L(language)”的WA、VA模型,地平線怎么看不同的智駕路線之爭?
呂鵬:不管是WA還是VLA都是基于端到端做的。沒有端到端的基座,很難把一些新的模態(tài)做引入,也就沒辦法更好地提升產(chǎn)品性能。這才是基座的意義。其他東西都只是輔助性,比如language。模型一定不是以language為核心去做開發(fā),而是把language作為輔助項(xiàng),再結(jié)合端到端的基座,這樣才符合我們?nèi)祟愰_車的狀態(tài)。
人開車的時(shí)候,95%以上的時(shí)間開得非常輕松的,你不會(huì)有太多的思考,只在極度一些復(fù)雜的場景下,會(huì)加入一些理解、思考和推理,這也就說明了在AI重構(gòu)智能駕駛的情況下,instinct model(直覺模型)一定要做得足夠好,這樣才能在此基礎(chǔ)上,加入一些語言或者其他輔助性的模型,才能更好的智能。
沒有扎實(shí)的端到端,高階智駕就是空中樓閣
《21汽車·一見Auto》:在未來更智能的端到端里,最關(guān)鍵的核心技術(shù)是什么?
呂鵬:隨著產(chǎn)品性能越來越強(qiáng),仿真閉環(huán)很關(guān)鍵。因?yàn)橄∈璧膱鼍笆切枰ㄟ^仿真去生成一些simulation和validation。隨著端到端的不斷成熟,遇到問題的場景會(huì)越來越稀疏。雖然新技術(shù)也會(huì)有幫助,但萬變不離其宗。如果沒有一個(gè)很好的端到端基座,其他都是空中樓閣。
《21汽車·一見Auto》:按照這個(gè)邏輯,未來最理想的智駕方案,是否在端到端的基礎(chǔ)上疊加世界模型或者強(qiáng)化學(xué)習(xí)的模塊?
呂鵬:直覺模型做得足夠強(qiáng),解決了95%甚至99%的場景,剩下的需要認(rèn)知推理的場景再加上思維鏈的理解能力,這是比較理想化的狀態(tài)。但是一切都要回歸原點(diǎn),也就是端到端場景下的直覺模型一定要先做得足夠好,再把其他的東西進(jìn)行提升。
《21汽車·一見Auto》:地平線內(nèi)部是否有布局VLA或者下一代的智駕方案?作為智駕供應(yīng)商,接下來的競爭核心應(yīng)聚焦哪些領(lǐng)域?
呂鵬:核心還是要回歸產(chǎn)品體驗(yàn)和安全性?,F(xiàn)在我們沒有必要太多關(guān)注于各種新名詞和新概念,因?yàn)楸举|(zhì)上都是端到端,最終還是要看智駕方案的體驗(yàn)夠不夠好,系統(tǒng)夠不夠安全,它有沒有很好的市場認(rèn)可度,這些才是最關(guān)鍵的。技術(shù)上,我們肯定會(huì)做好預(yù)研和儲(chǔ)備。
《21汽車·一見Auto》:此前與一位智駕企業(yè)CEO交流時(shí),他認(rèn)為端到端更像是模仿學(xué)習(xí),基于GPT架構(gòu)的VLA,才是強(qiáng)化學(xué)習(xí)。但如果給端到端的基座去加一個(gè)世界模型,相當(dāng)于是給純電車加了一個(gè)渦輪增壓,他認(rèn)為沒必要。你如何回應(yīng)這一觀點(diǎn)?
呂鵬:我覺得核心還是要看最終產(chǎn)品的收益是什么。少部分場景確實(shí)需要強(qiáng)化學(xué)習(xí)來解決,包括language這些維度的信息,最后一定是輔助項(xiàng)。所謂輔助項(xiàng),不是說去解決復(fù)雜的思維鏈,而是幫助去訓(xùn)練模型。這么多攝像頭的輸入,最終輸出只有一個(gè)踏板方向盤。如何把這個(gè)模型訓(xùn)好,這里面有巨大的難度。
《21汽車·一見Auto》:如果地平線下一代智駕方案包含VLA技術(shù),是否會(huì)全盤拋棄當(dāng)前的端到端技術(shù)?
呂鵬:當(dāng)然不會(huì)。沒有好的端到端,VLA一定做不好,這是基礎(chǔ)。

