《 Google 》說話機器人：智慧模型將視覺和語言轉化

CI.Seoa News
2023年8月10日
讀畢需時 3 分鐘

RT-2 是我們新的視覺 - 語言 - 行動模型，可幫助機器人更輕鬆地理解和執行動作 - 無論是熟悉的還是新的

幾十年來，當人們想像遙遠的未來時，他們幾乎總是包括機器人的主角。機器人被塑造成可靠、樂於助人甚至迷人的人。然而，在過去的幾十年裡，這項技術仍然難以捉摸 —— 停留在科幻小說的想像領域。

今天，我們介紹了機器人技術的新進展，使我們更接近有用機器人的未來。機器人變壓器 2 或 RT-2 是首個視覺 - 語言 - 行動（VLA）模型。RT-2 是一種基於變壓器的模型，根據來自網路的文本和圖像進行訓練，可以直接輸出機器人動作。就像語言模型在網路上的文本上進行訓練以學習一般思想和概念一樣，RT-2 從網路數據中傳輸知識以告知機器人行為。

換句話說，RT-2 可以說機器人。

機器人學習的現實挑戰

追求有用的機器人一直是一項艱巨的工作，因為能夠在世界上完成一般任務的機器人需要能夠在高度可變的環境中處理複雜、抽象的任務 —— 尤其是那些以前從未見過的任務。

與聊天機器人不同，機器人需要 “接地” 在現實世界及其能力中。他們的培訓不僅僅是學習關於蘋果的一切知識：它是如何生長的，它的物理特性，甚至是據稱落在以撒・牛頓爵士頭上的蘋果。機器人需要能夠在上下文中識別蘋果，將其與紅球區分開來，瞭解它的樣子，最重要的是，知道如何撿起它。

從歷史上看，這需要對機器人進行數十億個數據點的訓練，第一手資料，跨越物理世界中的每一個對象、環境、任務和情況 —— 這種前景非常耗時且成本高昂，以至於創新者無法實現。學習是一項具有挑戰性的工作，對機器人來說更是如此。

RT-2 的新方法

最近的工作提高了機器人的推理能力，甚至使它們能夠使用思維鏈提示，這是一種剖析多步驟問題的方法。像 PaLM-E 這樣的視覺模型的引入幫助機器人更好地理解周圍環境。RT-1 表明，以跨系統概括資訊而聞名的變形金剛甚至可以説明不同類型的機器人相互學習。

但直到現在，機器人都在複雜的系統堆疊上運行，高級推理和低級操縱系統玩著不完美的電話遊戲來操作機器人。想像一下，想想你想做什麼，然後不得不把這些動作告訴身體的其他部分，讓它移動。RT-2 消除了這種複雜性，使單個模型不僅可以執行基礎模型中的複雜推理，還可以輸出機器人動作。最重要的是，它表明，通過少量的機器人訓練數據，該系統能夠將嵌入其語言和視覺訓練數據中的概念轉移到指導機器人動作上 —— 即使是它從未被訓練過的任務。

例如，如果您希望以前的系統能夠扔掉一塊垃圾，則必須明確訓練它們能夠識別垃圾，以及撿起並扔掉它。由於 RT-2 能夠從大量的網路數據語料庫中轉移知識，因此它已經知道垃圾是什麼，並且可以在沒有明確訓練的情況下識別它。它甚至知道如何扔掉垃圾，即使它從未接受過採取這種行動的訓練。想想垃圾的抽象本質 —— 一袋薯條或香蕉皮在你吃完后變成了垃圾。RT-2 能夠從其視覺語言訓練數據中理解這一點並完成這項工作。

機器人技術更光明的未來

RT-2 將資訊傳遞到行動的能力表明，機器人有望更快地適應新的情況和環境。在 2 多次機器人試驗中測試 RT-6 模型時，該團隊發現 RT-000 的功能與我們之前的模型 RT-2 一樣，在其訓練數據或 “看到” 任務中的任務上。它在新穎的、看不見的場景中的表現幾乎翻了一番，從 RT-1 的 62% 提高到 1%。

換句話說，通過 RT-2，機器人能夠像我們一樣學習更多 - 將學到的概念轉移到新的環境中。

RT-2 不僅展示了人工智慧的進步如何迅速級聯到機器人技術中，還展示了對更多通用機器人的巨大前景。雖然在以人為中心的環境中啟用有用的機器人仍有大量工作要做，但 RT-2 向我們展示了機器人技術令人振奮的未來。

以上內容來自 [ Google Blog ] blog.google/technology/ai/google-deepmind-rt2-robotics-vla-model