BitcoinWorld
訓練機器人的臟活:XDOF 籌得 7000 萬美元,為 AI 實驗室迫切需要的數據管道奠基
兩週前,OpenAI 宣布將重啟其機器人專案——該專案曾於 2021 年關閉——這是各大 AI 實驗室競相教導機器如何在實體世界中運作的最新訊號。然而,打造具備能力的機器人需要 AI 產業目前尚未大規模具備的條件:能與語言模型相匹敵的訓練數據。這一缺口正在催生一種新型基礎設施業務。
與依靠大量公開文字訓練的大型語言模型不同,機器人需要能捕捉實體互動的數據——而這類數據幾乎不存在。YouTube 影片和零工平台工作者拍攝的影片解析度低,且難以與實體世界對應。XDOF(發音為「ecks-doff」)是一家今日從隱身模式正式亮相的新創公司,押注於 AI 領域的下一大瓶頸不是模型或晶片,而是教導機器人如何與實體世界互動所需的數據回饋循環。
XDOF 致力於建構前沿實驗室和機器人公司難以自行建立的數據管道、收集工具和標註系統。該公司已從 Thrive Capital、Spark Capital、a16z、Lux 和 WndrCo 籌得 7000 萬美元。聯合創辦人兼 CEO Philippe Wu 表示,XDOF 目前擁有約 60 名員工,已與 20 家客戶展開合作,其中包括數家前沿 AI 實驗室,但他無法透露其名稱。
「所有頂尖實驗室都在積極追求機器人技術,」Wu 在一次訪談中說道。「我們已經見識到在語言模型競賽中稍落人後的代價……你不會想陷入追趕技術太晚的困境,而現在所有人都認同實體 AI 是下一個前沿領域。」
Wu 在加州大學柏克萊分校攻讀博士時,自己也遭遇了這個問題,他的研究方向是讓機器人從大規模數據集中學習技能。問題只有一個。「我們沒有大規模數據可用,」他說。「存在一個先有雞還是先有蛋的問題——我們必須先實際收集數據,才能討論如何訓練機器人基礎模型。」
Wu 與他未來的 XDOF 聯合創辦人兼 CTO Fred Shentu 共同研究了一個名為 GELLO 的專案——一套低成本遠程操控系統,允許操作員控制機械臂以生成訓練數據。「這最終成為機器人領域一篇極具影響力的論文,因為許多人面臨類似的需求和瓶頸,許多人開始利用這種設備進行數據收集,」Wu 說。
看準這個機會,Wu、Shentu 和第三位聯合創辦人兼首席營運官 Nemo Jin 於 2024 年 10 月創立 XDOF,為追求機器人模型的公司提供數據生態系統。考量到單純提供數據可能是一條死胡同,該公司同時專注於數據清理、工具開發和標註工作——為機器人訓練師打造自我強化的回饋循環。
作為起點,該公司正與加州大學柏克萊分校 AI 研究實驗室合作,發布其認為迄今為止規模最大的高品質機器人訓練數據集,命名為 ABC。該數據集包含 13 萬條機器人操控數據軌跡、300 小時的模擬數據以及 100 小時的評估數據。這種規模的預訓練數據從未向學術界開放過。
「我們在語言、圖像生成及其他領域都見過,當模型和數據公開發布時,社群往往能實現超乎預期的成就,」協助籌備此次發布的柏克萊博士生 David McAllister 告訴 Bitcoin World。該團隊已利用這些數據訓練機器人執行基準任務,例如折疊 T 恤、壓平紙箱,以及將 AirPods 裝入充電盒。
該公司計劃在數據金字塔的三個層級上開展工作。最有價值的層級是在實際部署的機器人上收集的遠程操控數據;其次是使用遠程操控機器人收集更通用的數據,如 GELLO;最後是由人類執行日常任務所採集的「自我中心」數據,XDOF 計劃為此開發自家的可穿戴感測器。
「攝影機的選擇會影響數據品質——進而影響手部追蹤演算法的表現,」Wu 說。「如果一開始硬體設計不夠完善,所收集的數據可能會出現你未曾預料到的特定問題。」
該公司計劃在全球各地招募並培訓大批遠程操控員和自我中心數據操作員——這是一種勞動密集型模式,由此引發一個顯而易見的問題:為何各大實驗室不自行完成這些數據生產工作?
「你需要一個數十萬平方英尺的倉庫,裡面要有數百台機器人,」Wu 說。「你需要維護這些機器人、校準它們的物理參數,並妥善培訓操作員。」這種規模的建設需要專注力、資本和運營規模,而大多數 AI 實驗室寧願將其外包——這正是 XDOF 所押注的市場。
XDOF 的出現預示著 AI 格局的更廣泛轉變。隨著前沿實驗室競相邁向實體 AI——即能在非結構化人類環境中運作的機器人——數據瓶頸正變得與運算能力或模型架構同樣關鍵。能夠為實體互動提供可靠、高品質訓練數據的公司,正將自身定位為不可或缺的基礎設施供應商。
XDOF 這個名稱取自機器人領域術語「自由度」(Degrees Of Freedom),描述機器人能夠執行的獨立運動數量。你的手臂從肩膀到手腕擁有七個自由度。人形機器人公司 Figure.AI 的最新機器人擁有 30 個自由度。公司名稱中的 X 代表其雄心壯志:「任意自由度,無限自由度,」Wu 說。
XDOF 籌得 7000 萬美元並正式從隱身模式亮相,印證了 AI 產業日益增長的共識:通往具備能力的實體 AI 之路,需要的不只是更好的模型,更要有數據基礎設施的支撐。隨著更多實驗室跟隨 OpenAI 的腳步重啟機器人專案,對高品質、立足於實體世界的訓練數據的需求只會持續加劇。XDOF 正將自身定位於這一需求的核心,建構可能決定哪些公司能在打造真正能在現實世界中工作的機器人競賽中勝出的數據管道。
Q1:XDOF 是什麼?它做什麼?
XDOF 是一家新創公司,專門為機器人訓練建構數據管道、收集工具和標註系統。它為 AI 實驗室提供教導機器人如何與環境互動所需的實體世界訓練數據。
Q2:機器人訓練數據與語言模型訓練數據有何不同?
語言模型可以利用網路上大量的文字進行訓練。機器人訓練數據必須捕捉實體互動——例如抓取物體或折疊衣物——這需要遠程操控或可穿戴感測器等專門的收集方法。
Q3:XDOF 籌得多少資金?投資方是誰?
XDOF 已從 Thrive Capital、Spark Capital、a16z、Lux 和 WndrCo 籌得 7000 萬美元。該公司擁有約 60 名員工,已與 20 家客戶展開合作,其中包括數家前沿 AI 實驗室。
本文《訓練機器人的臟活:XDOF 籌得 7000 萬美元,為 AI 實驗室迫切需要的數據管道奠基》最先發布於 BitcoinWorld。

