智能涌現獲悉,「卓印智能」獲得千萬級天使輪融資,由天使灣創(chuàng)投獨家投資。
如今,隨著通用大模型規(guī)模的迅速擴大,數據短缺已經成為一個更現實而迫切的問題。早在2022年11月,就有MIT等研究人員發(fā)布相關論文,指機器學習數據集可能會在2026年之前耗盡所有“高質量數據”。
AI模型需要大量高質量的訓練數據,才能生成準確、多樣、無偏見的輸出,但獲取這種數據的成本和難度都很高——因此,合成數據成為一個有效解決手段?,F在,包括微軟、OpenAI、Cohere在內的公司都已經開始使用合成數據來訓練AI模型。
Gartner表示,在2021年,所有人工智能訓練數據中只有1%是合成數據,但到2024年底,合成數據可能會達到60%。而據plug and play預測,到2030年全球合成數據市場將會達到千億美元。
「卓印智能」(Join AI)正是基于這樣的背景,于2022年成立。團隊先從自動駕駛賽道切入,為客戶提供高質量的合成數據服務。截至2024年5月,團隊已經獲得自動駕駛、機器人領域多個頭部客戶超2000萬的訂單。
和傳統(tǒng)的訓練數據獲取方式相比,卓印智能選擇了“全自動”路線——端到端地生成訓練數據。2023年,卓印智能基于自研擴散模型和世界模型技術路線,推出了AI訓練數據生成模型“Simulaix”。
Simulaix可以生成媲美真實采集效果的生成數據,并可以在生成圖像過程中直接根據生成邏輯自動提取同步生成標注區(qū)域,供企業(yè)客戶直接使用。截至2023年Q4,Simulaix已經成功幫助企業(yè)客戶提升了 10%以上的模型效果。
創(chuàng)始人俞開文博士有多年AI算法、技術架構經驗,曾經歷任螞蟻、百度等大廠中的資深AI架構師,有豐富的大型To B項目落地經驗。他告訴智能涌現,從數據角度,優(yōu)質數據的短缺一直是困擾AI賽道的難題。
“在各式各樣的AI算法研究上,訓練數據的獲取都需要大量時間和金錢成本,AI工程師總是為數據所困。在很多項目里甚至會用超過一半的時間來處理訓練數據。”俞開文博士表示。但他認為生成式AI技術的出現會為這個行業(yè)帶來質的飛躍。
此前,在以識別為主的AI 1.0時代,訓練數據的獲取已經是一個較為成熟的“勞動密集型”行業(yè):企業(yè)將需求外包給數據采集、標注公司,這些公司需要用帶有傳感器的設備采集原始數據,經過清洗、篩選后再交給標注員對數據進行切割和標注——指出圖上A部分是紅綠燈、B部分是車輛等等。AI模型則通過對「帶有標注信息的訓練數據集」進行“學習”,才會越來越智能。
而合成數據解決方案的出現會對這一現狀產生根本性影響。
首先,在成本側,數據采集的成本將會逼近于0,數據標注的成本也會迎來大幅下降。“從我們已經落地的客戶案例來看,使用合成數據后,客戶的數據成本能夠下降80%-90%,”俞開文博士表示。
不過,合成數據能發(fā)揮更大作用之處,在于能夠增加高質量數據的供給,從而撬動更多數據需求。
以數據需求為高質量圖像數據的自動駕駛為例,相比大語言模型需要的文本數據,高質量圖像數據的獲取受限于更多的技術和法律障礙。數字化圖像的采集不僅依賴于高級的傳感器技術,還必須應對版權、隱私以及跨國法規(guī)等問題。
譬如目前廣泛被用戶所詬病的低矮障礙物識別問題——對路面低矮的石墩、倒地的自行車等識別不準等問題,就是因為訓練數據中corner case(罕見案例,即低頻遇到的現場情況)大量不足所導致的。這樣的數據很難通過傳統(tǒng)的數據采集和標注來獲得。
合成數據則能很好地解決這些“稀缺但重要”的場景訴求。
從技術路線上看,卓印選擇了端到端生成的技術方案。簡單而言,卓印智能相當于是訓練了一個專用的AI大模型,用以端到端地生成合成數據,省去大部分的人工成本。
事實上,合成數據賽道在AI出現時就已經存在,主流技術路線有數據增強、仿真、數據生成等。以數據仿真的合成方式為例,此前是通過類似3D圖形的引擎,構建一個虛擬的世界,在“世界”中生成自己需要的數據。
但構建這樣的虛擬世界,通常需要詳細的領域知識和物理模型,來確保生成數據的真實性和有效性。反映到實際使用上,現在數據仿真的方式成本還是較高,并且受限于引擎的基礎能力,數據真實性也有局限。
俞開文博士表示,雖然通過生成式AI來獲取合成數據的技術路線還有不少挑戰(zhàn),但在成本和真實性上具有獨特的優(yōu)越性,且隨著AI技術的發(fā)展,優(yōu)勢將會進一步放大。
目前,卓印智能選擇先在場景復雜、數據需求大的領域切入市場,來完成早期的商業(yè)拓展,比如自動駕駛、工業(yè)等賽道。俞開文博士認為,比如在具身智能等其他大模型領域,客戶也會有大量高質量數據的需求,這些都是卓印所看重的方向。
本輪融資后,卓印智能將著重投入到以Simulaix為核心的交付能力提升,以及自研世界模型“Terra-1”的商業(yè)落地驗證上。
卓印智能希望,能夠通過模擬各式各樣的圖像傳感器“看到的”真實世界來助力AI對現實世界的理解,用技術創(chuàng)新推動AI行業(yè)前進。“未來,數據將像電力一樣,變得便宜、易于獲取,成為推動AI發(fā)展的基石。”俞開文博士表示。
電話:0571-89939639
郵箱:fh@fenghuizixun.com
地址:浙江省杭州市濱江區(qū)浦沿街道六和路368號一幢(北)三樓B3288室