久久99国产亚洲高清观看首页 ,亚洲国产激情一区二区三区,欧洲精品免费一区二区三区,国产10000部拍拍拍免费视频

萬字長文,當(dāng)機器人擁抱大模型

來源:華爾街見聞     時間:2023-07-03 11:55:37

前言


(資料圖)

機器人行業(yè)的挑戰(zhàn)

研發(fā)能學(xué)習(xí)了解這個世界并能操控其中物體與世界進行交互的機器人,一直是機器人領(lǐng)域最重要且至今尚未完成的挑戰(zhàn)。

過去數(shù)年里,機器人產(chǎn)業(yè)曾被無數(shù)掛著AI旗號的公司“賦能”過,但傳統(tǒng)AI并沒有那么智能,訓(xùn)練成本高,泛化能力弱,除了在機器人視覺(Robot Vision)領(lǐng)域(嚴(yán)格意義上應(yīng)該是CV領(lǐng)域而非機器人領(lǐng)域)有較多應(yīng)用之外,在機器人這樣動作連續(xù)且復(fù)雜、有較多物理交互和操作因果性的領(lǐng)域落地情況并不樂觀。

大模型在自然語言連續(xù)對話、通識理解、少樣本/零樣本學(xué)習(xí)等能力方向的突破,使得機器人在軟件層面終于看到了變革的曙光。

當(dāng)前機器人的局限

雖然被冠以機器人之名,但是現(xiàn)在的機器人跟科幻電影里無所不能的機器人還差距甚遠,更客觀的來講,現(xiàn)在的機器人更偏向是一種可編程的專用設(shè)備。

機器人在人類社會的滲透率仍然很低,以使用最廣泛、滲透率最高的工業(yè)機器人為例,2022年中國一共銷售約30萬臺機器人,總體保有量在150萬到200萬臺之間。而中國的制造業(yè)產(chǎn)業(yè)工人約有一億人,通常情況下一臺機器人代替0.5~2個人,取平均數(shù)1的話,工業(yè)機器人的總體滲透率在2%左右,這意味著絕大部分工廠里的生產(chǎn)工作仍然由人工完成。

在商用和服務(wù)領(lǐng)域,機器人的滲透率更是低到可以忽略不計。

為什么機器人這么火,但是落地的應(yīng)用卻那么少呢?為什么機器人的銷量總是上不去?

拋開價格因素,目前機器人應(yīng)用少、可用性差的瓶頸主要在于軟件系統(tǒng),即現(xiàn)有的機器人應(yīng)用軟件還不能充分發(fā)揮機器人現(xiàn)有機能。雖然目前機器人硬件性能距離“終結(jié)者”仍然有巨大的差距,但是整體硬件機能已經(jīng)達到了很不錯的可用水平。

機器人是典型的機電軟一體化產(chǎn)品,軟件與硬件是相互限制又相互促進的矛盾體。

機器人機能提升可以帶來更好的性能,更好的性能支持更強大的軟件,更強大的軟件支持更多應(yīng)用,更多應(yīng)用擴大市場促使機器人廠商研發(fā)機能更強大的機器人,由此機器人產(chǎn)業(yè)才會步入良性的發(fā)展循環(huán)。

大模型的出現(xiàn),補全了讓機器人產(chǎn)業(yè)從1%到10%躍升的技術(shù)基礎(chǔ),這也是業(yè)內(nèi)為何看中機器人+大模型的主要原因。

大模型能做什么

本節(jié)是對當(dāng)前大模型在各領(lǐng)域能力的一個概述,熟悉該內(nèi)容的讀者可以直接跳到下一節(jié)。

之前被問起AI在機器人領(lǐng)域的潛力時,一直表達的觀點是AGI短時間內(nèi)還很難實現(xiàn),AI只能用在一些特定垂直的機器人領(lǐng)域上,未曾想會被如此迅速的打臉。

ChatGPT給出的大模型定義是:

A large model refers to a machine learning model with a significant number of parameters and high computational resource requirements, capable of handling complex tasks and achieving superior performance.

即具有大量參數(shù)和較高計算資源需求,用于處理復(fù)雜任務(wù)并取得優(yōu)異性能的機器學(xué)習(xí)模型。GPT、BERT都屬于大模型的范疇,具體到多少參數(shù)才是大模型沒有明確定義,通常考慮具備1B(十億)以上參數(shù)時可以稱之為大模型。

大模型在多個領(lǐng)域展現(xiàn)出來令人印象深刻的能力,譬如:

在自然語言處理領(lǐng)域,引爆全球關(guān)注熱點的ChatGPT可以跟人流暢的聊天、撰寫各類專業(yè)文章、理解輸入的段落并給出各種分析,編程各類程序代碼、輔助查找bug、制定會議議程,甚至你還可以跟它探討人生的意義。此外,ChatGPT正在支持越來越多的插件,輸出內(nèi)容也不再局限于文字格式,合理使用插件可以大幅提升ChatGPT的輸出效率。在網(wǎng)上有大量關(guān)于ChatGPT的介紹資料和教程,在此不再贅述。

在辦公領(lǐng)域,微軟的Copilot,支持Excel、Word、PPT、Outlook、Teams、OneNote,可以極大提高工作效率。譬如在word中,你可以讓Copilot根據(jù)主題要求自動生成文章,并根據(jù)反饋做進一步的潤色。在PowerPoint中,可以根據(jù)給定的主題自動生成演示文稿的初稿,包括主題、布局、圖片等,并可以針對每一頁文稿進行直觀的自然語言交流和修改,整個過程自動化程度非常高。在Excel中,Copilot可以自動生成特定要求的數(shù)據(jù)透視表,可以回答諸如“分析數(shù)據(jù)并列出三個關(guān)鍵趨勢”這樣的問題,可以分析某一類數(shù)據(jù)變化背后的原因??傊?,Copilot的加入使得計算機可以自動完成很多基礎(chǔ)文檔工作,極大提高Office辦公套件的工作效率。

在圖像生成領(lǐng)域,以Midjourney、DALL-E為代表的文生圖大模型,可以根據(jù)輸入的文字創(chuàng)建插圖、設(shè)計產(chǎn)品以及產(chǎn)生新的業(yè)務(wù)創(chuàng)意圖,使用合適的指令和參數(shù)組合,可以生成各種高質(zhì)量的圖片。

在教育領(lǐng)域,大模型會對以傳授知識和技能為主的教育模式帶來巨大沖擊,因為未來每個人都會擁有一個存儲了大量知識的智能助理,人們不再需要去記憶大量現(xiàn)存的知識內(nèi)容,教育模式會向著培養(yǎng)更具創(chuàng)新、溝通、推理能力的方向發(fā)展。在具體落地層面,大模型可以化身成一對一的助教,因材施教在成本和效果層面終于具備了可行性。它可以根據(jù)學(xué)生的歷史數(shù)據(jù)自動生成適合該學(xué)生的教學(xué)內(nèi)容、題庫等,并完成作業(yè)批改;可以閱讀一本書并與學(xué)生探討書中的思想與含義;可以作為外語老師跟學(xué)生對話并指出學(xué)生存在的語法或者發(fā)音錯誤。

從大練模型到練大模型

《On the Opportunities and Risks of Foundation Models》一文中給出了大模型時代使用AI解決任務(wù)的一般范式,即從基礎(chǔ)模型通過精調(diào)生成任務(wù)/行業(yè)大模型。

大模型之前的AI模型多是面向特定領(lǐng)域單獨訓(xùn)練的,新場景通常需要走一遍“數(shù)據(jù)收集--標(biāo)注--訓(xùn)練(調(diào)參優(yōu)化迭代)--部署--應(yīng)用”等一系列流程,即使經(jīng)驗豐富的AI工程師也需要幾天甚至幾周的時間來完成,而訓(xùn)練得到的模型A適合于A領(lǐng)域,模型B更適合B領(lǐng)域,通用性并不高,快速部署能力很弱,在很多對時效要求高的場合(譬如需要頻繁換產(chǎn)的工業(yè)現(xiàn)場、動態(tài)變化的商用/服務(wù)場景)就很難應(yīng)用。

大模型的出現(xiàn),讓高成本(財務(wù)&時間)手工煉丹模式的垂直領(lǐng)域AI開發(fā),變成“預(yù)訓(xùn)練大模型+特定任務(wù)微調(diào)”的形式,這種方式可以大幅提高模型的泛化能力,提高開發(fā)速度,在面向各種“精度”要求不高的場合時可以認(rèn)為具備了一定意義上的通用智能。

“你是想告訴我們,一種沒有記憶遺傳,相互間用聲波進行信息交流,并且是以令人難以置信的每秒1至10比特的速率進行交流的物種,能創(chuàng)造出5B級文明?!而且這種文明是在沒有任何外部高級文明培植的情況下自行進化的?!”
------銀河系碳基艦隊統(tǒng)帥,劉慈欣《鄉(xiāng)村教師》

在信息儲存和傳遞速度上,硅基的計算機遠超碳基的人類。

基礎(chǔ)模型帶來了“記憶遺傳”,再加上硅基帶來的交流速率的史詩級提升,使得這次由大模型帶來的AI產(chǎn)業(yè)的進步將是革命性的。

當(dāng)機器人擁抱大模型

AI是大腦,機器人運動控制器是小腦,機器人就是軀干,三者在一起才組成完整的機器人系統(tǒng)。

大模型給機器人帶來了什么

進展最大也最有可能跟機器人深度結(jié)合的大語言模型LLM(Large Language Model),其主要特點和優(yōu)勢包括:

具備多個領(lǐng)域的基礎(chǔ)知識

對自然語言具備較好的理解能力

基本可用的連續(xù)對話與持續(xù)交互能力

強大的零樣本/小樣本學(xué)習(xí)能力

把以上能力映射到機器人領(lǐng)域,大模型適用的機器人任務(wù)就包括:

任務(wù)描述

任務(wù)分解

程序生成

任務(wù)交互

以上能力合并在一起,就構(gòu)成了機器人開發(fā)人員夢寐以求的愿望,即任務(wù)級編程/交互。

只需要告訴機器人它要做的任務(wù)是什么,機器人就會理解需要做的事情,拆分任務(wù)動作,生成應(yīng)用層控制指令,并根據(jù)任務(wù)過程反饋修正動作,最終完成人類交給的任務(wù)。整個過程基本不需要或者僅需少量人類的介入和確認(rèn),基本實現(xiàn)了機器人自主化運行,無需掌握機器人專業(yè)操作知識的機器人應(yīng)用工程師介入。

機器人的任務(wù)級編程

任務(wù)級編程或者任務(wù)級交互落地之后,以下場景將有可能變?yōu)楝F(xiàn)實:

要理解任務(wù)級編程在機器人領(lǐng)域的重要性,我們首先需要知道,當(dāng)一個機器人從收到指令到實際運動起來,中間需要經(jīng)過哪些環(huán)節(jié),如何控制機器人完成任務(wù)所需的動作。

當(dāng)前,機器人控制框架一般采用層級控制(Hierarchical Structure)方法,不同的文獻會把機器人編程和控制層級劃分為多個層級,譬如任務(wù)級、動作級、關(guān)節(jié)級,或者在《Robotics Modelling, Planning and Control 》里,分為任務(wù)級,動作級,初始級,伺服級等。

在層級控制的方法中,高層級負(fù)責(zé)任務(wù)定義和動作規(guī)劃,低層級負(fù)責(zé)實時運動控制,如下圖所示:

機器人的未來將繼續(xù)考驗行業(yè)內(nèi)外許多人的智慧與能力,但是在歷史洪流的發(fā)展進程中,新的拐點或者機遇終將如期而至。

任務(wù)定義與描述(去接一杯水);

把任務(wù)分解為動作(把從拿杯子到打開水龍頭到接水的過程拆分成一個一個的細(xì)小動作);

機器人工程師根據(jù)分解動作對機器人進行編程,生成代碼(可以是C++、Python,也可以是自定義的機器人編程語言);

控制-執(zhí)行-反饋(傳統(tǒng)意義上機器人控制的主要功能);

在大模型之前,一般只有第四步的控制和反饋環(huán)節(jié)是由計算機自動完成,前面的任務(wù)定義、拆解和機器人運動代碼生成主要是機器人工程師完成。眾多的機器人應(yīng)用工程師的主要工作就是理解任務(wù),并把任務(wù)拆解成合適的動作,使用機器人編程語言完成機器人應(yīng)用程序的編寫、調(diào)優(yōu)和部署。

大模型并不適合做底層精確的控制,更適合做相對模糊的任務(wù)級規(guī)劃。通過大模型直接生成機器人應(yīng)用級代碼是目前看來技術(shù)儲備最多,最有可能快速落地的方向。

例如,如果要求機器人去廚房接一杯水過來,那么僅僅是打開水龍頭這一個子任務(wù)對機器人來講就有很多挑戰(zhàn),水龍頭的樣式是多種多樣,開啟方式也不盡相同,機器人首先要能理解面對的是一個什么樣的水龍頭,該如何開啟,開啟到什么程度能兼顧接水速度和避免潑濺和溢出。這個對于人類來講很簡單的事情,在之前都是需要機器人應(yīng)用工程師通過代碼一行一行寫出來的。而預(yù)訓(xùn)練大模型的通識理解能力和強大的零樣本學(xué)習(xí)能力,非常適合生成動作級代碼,指揮機器人的動作來完成任務(wù)。

當(dāng)然,靠AI完全自主生成的機器人代碼可能存在不完備、不安全的問題,這時候就需要人類介入(RLHF)進行確認(rèn)、修改、調(diào)優(yōu)等工作,通過AI與人類的配合,來實現(xiàn)機器人的低門檻使用與快速部署。

任務(wù)級交互落地之后,以下場景將有可能變?yōu)楝F(xiàn)實:

從工程師到用戶

當(dāng)大模型帶來的任務(wù)級編程/交互在各個應(yīng)用領(lǐng)域陸續(xù)落地的時候,機器人的使用者從工程師變成了一般用戶。

大模型的few-shot和zero-shot能力,讓機器人在面向各種各樣新應(yīng)用時,可以快速給出一個方向正確&基本可用的整體方案,而且不需要用戶具備之前需要的專業(yè)機器人知識。

使用門檻的降低,是一個產(chǎn)品或一個產(chǎn)業(yè)走向大規(guī)??焖俦l(fā)的起點。

機器人是AI與物理世界的錨點

AI系統(tǒng)生成的指令,凡是需要與外界環(huán)境進行物理交互的,都需要機器人來完成具體的動作,機器人是AI系統(tǒng)落地物理世界的最佳載體。

我們生活在三維的物理空間,里面發(fā)生的幾乎一切事情都需要與周圍的事物進行各種形式的物理交互,而AI作為計算機軟件系統(tǒng),要想與外界交互,必須借助物理實體來完成。當(dāng)年AlphaGo與李世石對戰(zhàn)時,仍然需要人類代為執(zhí)行移動棋子的動作,其實完全可以換成一個機器人/機械臂來代替這個人。

任何一個系統(tǒng)對外界的影響程度取決于它的輸出能力。

計算機系統(tǒng)的輸出都是虛擬的,無法對現(xiàn)實世界產(chǎn)生物理的影響。

而機器人的輸出包含了虛擬(與計算機同等)和物理兩種能力。

多輸入多輸出能力是通用機器人平臺的基礎(chǔ)能力,也是機器人具備從事多種多樣任務(wù)能力的硬件基礎(chǔ),也由此構(gòu)成了機器人作為物理世界平臺的基礎(chǔ)。通常,平臺化的產(chǎn)品具備如下特征:

基礎(chǔ)功能(設(shè)施)足夠完備

開放的架構(gòu)和豐富接口(APIs)

完善的開發(fā)工具;

其中,基礎(chǔ)功能足夠完備是一個基礎(chǔ)特性或者使能(Enabling)特性。

例如,早期的計算機能力只是計算器水平,只能進行簡單的運算,即使有再開放的架構(gòu)和豐富的接口也無法開發(fā)出視頻聊天APP。機器人如果只有簡單的抓取和移動能力,也無法完成更復(fù)雜的任務(wù)。

在多模態(tài)大模型之前,即使機器人已經(jīng)具備了多模態(tài)的硬件能力,在軟件層面仍然很難使用一個模型涵蓋所有情況。比如對于傳統(tǒng)NLP模型來講,輸入輸出都是text范式,讓只使用NLP模型的機器人“理解”不同的輸入和輸出組合能做什么不能做什么是一個非常困難的事情。

現(xiàn)在有了多模態(tài)大模型,機器人終于可以開始理解如何合理使用它的多種輸出能力來更好的完成任務(wù)了。

因此,計算機是虛擬世界的通用平臺,機器人是物理世界的通用平臺。

當(dāng)然語言大模型和圖像大模型以及其他多模態(tài)大模型之間的知識如何影射、如何鏈接仍然是一個未能很好解決的難題,但是至少我們具備了實現(xiàn)這個愿景的技術(shù)基礎(chǔ)。

面臨的挑戰(zhàn)

不確定的安全性

這里涉及的安全性包括兩個部分,操作安全性與數(shù)據(jù)安全性,其中操作安全性又可分為任務(wù)級安全性與操作級安全性。

任務(wù)生成的安全性

這里的安全性,指的是大模型生成的任務(wù)動作是否能很好的適應(yīng)新環(huán)境和新情境,不會對環(huán)境造成破壞或者引發(fā)安全性后果,本質(zhì)上是模型產(chǎn)出的魯棒性問題;

在實際環(huán)境中使用機器人的一個難點在于,機器人的動作會改變環(huán)境本身,而環(huán)境的改變又會影響機器人的下一步動作,能否在新的環(huán)境里更新任務(wù)并順利執(zhí)行到底,對于機器人能否被應(yīng)用到非結(jié)構(gòu)化場景中至關(guān)重要。

例如,有一個機器人在給廚房幫忙用蒸箱蒸饅頭,蒸之前開蒸箱門往里面放是不需要考慮太多因素的,只要別發(fā)生碰撞即可。但是蒸好之后需要打開蒸箱拿出來的時候就需要考慮旁邊是否有人,因為蒸箱打開的時候高溫蒸汽噴出會對旁邊的人造成燙傷,機器人是否能認(rèn)識到這一點并在生成“打開剛剛使用過的蒸箱”任務(wù)動作時,考慮高溫蒸汽對人的影響(沒有人的話可以直接打開,有人走過來的話就要晚點開或者提醒人員離開一點)就是很基本的安全要求了。

“等人離遠點再打開蒸箱門”或者“播放語音提醒人員注意高溫蒸汽”這兩個動作對于機器人來講很簡單,但是能否在合適的時候生成這兩個動作指令,需要機器人具備生活的常識。

雖然大模型具備很強的通識能力,但是如何保證每一次生成的任務(wù)都符合彼時情境的安全規(guī)范,仍然是一個需要持續(xù)優(yōu)化的問題。

操作動作的安全性

除了以上需要常識就能解決的任務(wù)生成問題,在很多需要專業(yè)技能的領(lǐng)域機器人還要關(guān)注細(xì)微工藝動作是否符合安全規(guī)范,譬如在機器人手術(shù)中,機器人生成的磨削骨頭或者切割軟組織的某個細(xì)微動作是否符合手術(shù)手法要求,是否會對病人造成額外傷害,也是需要慎重考慮的問題。

提高AI和機器人系統(tǒng)的安全性是一個長期過程,這有賴于從業(yè)者的不斷努力和探索。

但是從工程化落地角度來看,我們要正確看待安全性問題,安全不等于絕對的無風(fēng)險。

安全的另一種解釋是“不存在無法承受的風(fēng)險”。

想象一下,乘坐飛機出行安全嗎?在路上飛馳而過的汽車安全嗎?

如果過于強調(diào)安全問題,裹足不前,機器人就不可能獲得大規(guī)模推廣。

因此必須要設(shè)定一個合理的責(zé)任劃分尺度,由機器人的設(shè)計者和用戶共擔(dān)風(fēng)險,從社會角度承認(rèn)利益與風(fēng)險共存是機器人大規(guī)模推廣的必備條件。

實際上這種形式在我們生活中隨處可見。

全球范圍內(nèi),人類司機每年因為交通事故殺死100萬人;由于工作相關(guān)的意外事故和職業(yè)疾病導(dǎo)致的死亡人數(shù)約為300萬人;因為醫(yī)療事故/錯誤的醫(yī)生診斷或?qū)е鲁^250萬人死亡。

機器人+AI系統(tǒng)的引入會大幅降低各個行業(yè)的傷亡率,機器人并不需要完美,機器人只要做的比人好就行。

數(shù)據(jù)安全與信息安全

在訓(xùn)練大模型以及使用大模型的時候,不可避免涉及到敏感數(shù)據(jù)的問題,譬如用于訓(xùn)練的語料中存在敏感數(shù)據(jù)或者給到大模型的input中存在敏感數(shù)據(jù)。

數(shù)據(jù)與信息安全性是一個繞不開的話題,現(xiàn)在還沒有形成統(tǒng)一的標(biāo)準(zhǔn),如何處理高質(zhì)量數(shù)據(jù)全面性與信息安全之間的平衡,這個問題需要留給從業(yè)者慢慢去解決。

但是從機器人應(yīng)用大模型的角度來看,如果我們把開發(fā)目標(biāo)從通用機器人AI轉(zhuǎn)換為“具有通用性/強泛化能力的技能機器人AI”,事情就會變得簡單一些。

我們希望的是通過大模型來代替一部分機器人應(yīng)用工程師的工作,或者說期望機器人應(yīng)用大模型具備焊接工、裝配工、噴漆工、按摩師、外科醫(yī)生的通用知識與技能知識,而這些人完成自己的工作,其實是不需要掌握國家敏感數(shù)據(jù),甚至也不需要知道企業(yè)的敏感數(shù)據(jù)。

他們需要的只是通識與技能數(shù)據(jù),大模型同理。

當(dāng)然并不是說數(shù)據(jù)安全問題在大模型應(yīng)用的過程中不重要,未來一個國家可能只會存在少數(shù)幾個Foundation Model,從基礎(chǔ)設(shè)施角度來看,數(shù)據(jù)安全當(dāng)然非常重要,也是需要從業(yè)者付出努力去解決的問題。

但是從某個具體應(yīng)用角度來看,至少目前為止我們無須過度關(guān)注數(shù)據(jù)安全問題。

高質(zhì)量訓(xùn)練數(shù)據(jù)缺乏

機器人需要通過多種傳感器感知環(huán)境狀態(tài),然后執(zhí)行實際動作來完成任務(wù),因此訓(xùn)練用于機器人的大模型需要用到大量機器人在真實世界中與環(huán)境進行交互的數(shù)據(jù)集。

相比圖像和自然語言處理領(lǐng)域可以從網(wǎng)上大量獲取訓(xùn)練數(shù)據(jù)或者通過人類標(biāo)注快速低成本的獲取數(shù)據(jù),可用于訓(xùn)練機器人學(xué)會執(zhí)行新任務(wù)新技能的高質(zhì)量數(shù)據(jù)非常匱乏。主要原因有:

與CV和NLP相比,機器人執(zhí)行任務(wù)通常需要花費更多時間,這導(dǎo)致收集數(shù)據(jù)的效率很低;

CV和NLP訓(xùn)練過程中只需要處理虛擬信息,而機器人訓(xùn)練過程中會對周圍環(huán)境造成影響,可能會破壞環(huán)境、損壞任務(wù)對象,最終造成財務(wù)損失,而且這種損失在訓(xùn)練完成之前是不可避免的;

機器人保有量還太少,可用于收集訓(xùn)練數(shù)據(jù)的機器人就更少,進一步加重了數(shù)據(jù)收集的難度。

此外,考慮到機器人執(zhí)行任務(wù)時,面臨的環(huán)境和交互內(nèi)容模態(tài)更多,更加復(fù)雜,因此需要的數(shù)據(jù)集規(guī)模也比CV和NLP領(lǐng)域要大,例如,最新的GPT-4剛剛能理解下圖中展示的內(nèi)容(當(dāng)拳擊手套掉落時,球會被彈起),業(yè)界已經(jīng)開始用“恐怖”來形容GPT-4,但是這樣的理解程度對于需要執(zhí)行各種復(fù)雜物理交互的機器人來講,只是基礎(chǔ)要求。

通過仿真的方式可以快速、低成本的獲得一些機器人訓(xùn)練數(shù)據(jù),但是一直以來受限于仿真模型的精細(xì)度、物理模型準(zhǔn)確度、感知數(shù)據(jù)的準(zhǔn)確性等原因,仿真數(shù)據(jù)與真實數(shù)據(jù)之間都存在巨大的差異,使得在仿真環(huán)境中只能訓(xùn)練一些對精度要求不高或者弱接觸的場景。虛實遷移(Sim-to-Real)的研究者一直在試圖努力縮小虛實數(shù)據(jù)的差異,從而最終達到通過虛擬場景進行大規(guī)模的數(shù)據(jù)收集和訓(xùn)練的目的。

另外一個可能的方向是利用視覺與自然語言處理方向的成果,使用LLM自動生成用于訓(xùn)練機器人的數(shù)據(jù)集,從而顯著降低數(shù)據(jù)獲取的時間和財務(wù)成本。但是LLM自動生成的訓(xùn)練數(shù)據(jù)可用性如何仍然是一個未解決的挑戰(zhàn)。

觀察學(xué)習(xí)(Observational Learning)也是一個可能的方向,通過讓模型觀看人類教學(xué)視頻的方式來學(xué)習(xí)和理解某些技能,但該項研究仍處于相對早期的階段。

總之,在欠缺優(yōu)質(zhì)數(shù)據(jù)的大背景下,仿真數(shù)據(jù)、真實機器人數(shù)據(jù)、教學(xué)視頻、自然語言數(shù)據(jù)都有可能對訓(xùn)練機器人基礎(chǔ)大模型有至關(guān)重要的作用。

展望

對機器人行業(yè)的影響

與計算機、手機、汽車等行業(yè)相比,AI與機器人產(chǎn)業(yè)尚處于早期發(fā)展階段,大模型的能力與機器人的能力其實還沒有強關(guān)聯(lián),是傳統(tǒng)意義上“完美機器人”的兩個獨立又關(guān)系密切的組成部分,類似于計算機的軟件和硬件。

因此,在可預(yù)見的未來,包含AI和機器人的泛機器人產(chǎn)業(yè)圈,會分化為兩類公司:

以機器人核心零部件、精密控制為核心的機器人公司,為行業(yè)提供機能強大、高度開放、成本可控的機器人標(biāo)準(zhǔn)產(chǎn)品;

以行業(yè)大模型應(yīng)用技術(shù)解決某些細(xì)分場景/行業(yè)的機器人應(yīng)用產(chǎn)品公司,基于大公司提供的基礎(chǔ)模型+其在行業(yè)的Know-how,提供行業(yè)的整體應(yīng)用解決方案(包括軟件和硬件);

在這個假設(shè)下,對于機器人產(chǎn)品的評價指標(biāo)與定義即將發(fā)生變化。

就像汽車領(lǐng)域,一直以來汽車作為交通工具,其主要功能是把人從A點移動到B點,交通工具的主要關(guān)注點是操控性、通過性、底盤調(diào)教、質(zhì)感。隨著汽車電動化、智能化的發(fā)展,現(xiàn)在汽車更多關(guān)注傳感器能力、自動駕駛水平、座艙智能化程度、甚至冰箱彩電等。車還是那個車,但是定義什么是好車的參數(shù)和指標(biāo)發(fā)生了變化。

機器人同理,之前機器人關(guān)注精度、速度、振動抑制等等,未來可能更關(guān)注感知能力(多少種傳感器)、安全性、操作簡易化水平、環(huán)境交互能力、接口開放程度等。

我們經(jīng)常說,機器人是一個軟件產(chǎn)品,隨著AI大模型的發(fā)展,機器人的功能越來越多,機器人軟件化的定義將愈加明顯。如果機器人公司沒有強大的軟件能力和服務(wù),將無法直接與客戶交流,無法獲得寶貴的用戶數(shù)據(jù),最后變成一個組裝低毛利、低門檻機器人的打鐵公司。

以上言論可能顯得危言聳聽,但是有一點是確定的,即大模型會給機器人軟件系統(tǒng)帶來系統(tǒng)性的變革,不積極擁抱大模型的機器人廠家,就像當(dāng)年沒有積極開發(fā)自己智駕系統(tǒng)的傳統(tǒng)汽車廠商一樣,逐步在新的競爭中失去活力。

可以預(yù)見的是,之前面向固定領(lǐng)域的工業(yè)機器人、協(xié)作機器人、移動機器人的產(chǎn)品形態(tài)將無法滿足未來更多樣任務(wù)的需求,多模態(tài)大模型必然需要多模態(tài)(感知、移動、操作等)機器人。

有用的機器人≠完美機器人

AI大模型的驚人表現(xiàn)預(yù)示著AI產(chǎn)業(yè)走出了這兩年由于高級自動駕駛、智能助手產(chǎn)業(yè)落地不順導(dǎo)致的相對低谷期,開始重新向上,但是機器人+大模型還處在快速發(fā)展路上。

雖然行業(yè)市場規(guī)律我們無法避免,但是保持合理預(yù)期,能幫助我們少走彎路,加快落地速度。

過去數(shù)十年的經(jīng)驗表明,人們往往會高估機器人的能力上限,同時低估機器人下限能帶來的市場空間。

與之有關(guān)的一些典型的問題是:

“你的機器人不能百分之百替代這個人的工作,我為什么要買它?”

“機器人的效率不如人工,從機器換人的角度來算賬算不過來啊”

實際上,機器人在某些環(huán)節(jié)效率不如人類時可以用增加機器人時長來平衡,例如清潔、夜間作業(yè)、低頻長時搬運等。很多化學(xué)、藥品實驗室正在落地復(fù)合機器人代替工程師進行自動化合成工作。具備高精度微操能力,二十四小時無休的機器人可以解放很多被困在此類重復(fù)操作場景中的高級工程技術(shù)人員。

在可靠譜預(yù)見的未來,絕大部分工作場景中機器人無法百分之百實現(xiàn)/復(fù)刻人的能力,但如果我們從少人化/提高人員工作質(zhì)量的角度來看,只能實現(xiàn)部分替代人工的機器人仍然是個大市場。典型例子是酒店送貨(外賣)機器人,雖然距離合格的酒店工作人員(答疑、送物、指引、清潔)仍然有巨大的差距,當(dāng)前只是解決了給客房送東西這一個高頻的簡單問題,但仍然給酒店帶來了成本節(jié)約和效率提升,使得這一類產(chǎn)品被幾乎所有主流的酒店采用。實際上,現(xiàn)在入住一家主流連鎖酒店,如果這家酒店沒有機器人反而會覺得有點奇怪。

機器人+大模型將使越來越多類似酒店配送機器人細(xì)分場景的落地成為可能,而且未來具備多種機能的復(fù)合機器人將會比現(xiàn)在簡單的移動機器人提供更多服務(wù)和可能性,機器人產(chǎn)業(yè)將迎來最大的一波發(fā)展浪潮。

對社會的影響

真正的進步來自于工作崗位的消滅。
-----曼昆《經(jīng)濟學(xué)原理》

毫無疑問,機器人+AGI會代替一大批初/中級內(nèi)容生產(chǎn)者和低技能要求的工作者。

雖然很多人在說,新技術(shù)在消滅一部分崗位的同時,通常會帶來更多新的工作崗位,但是這次可能真的不一樣。信息技術(shù)的進步會帶來更多的崗位類型,但是崗位絕對數(shù)量卻會下降。

從目前的信息來看,機器人+AGI很大程度上屬于勞動節(jié)約型技術(shù),由于其本身的強大能力,與之有關(guān)的絕大部分工作都可以被其自身和機器人技術(shù)所消化(而不是像之前幾次工業(yè)革命會產(chǎn)生眾多的工作崗位需要人類去承擔(dān)),這次技術(shù)進步帶來的崗位數(shù)量將遠少于被其消滅的崗位數(shù)量。

從更宏觀的角度,可能會呈現(xiàn)更觸目驚心的事實。日本作家新井紀(jì)子在2019年出版的《當(dāng)人工智能考上名?!芬粫?,介紹了一個專門為考上東京大學(xué)而開發(fā)的AI機器人,從2011年開始到2016年,這個叫東大機器人的AI系統(tǒng)已經(jīng)可以達到日本70%以上大學(xué)的入學(xué)要求。書中還介紹了隨著AI的發(fā)展,有一半人將會失去工作。

但是,《當(dāng)人工智能考上名?!芬粫霭嬗?019年,彼時的作者并沒有預(yù)料到大模型的涌現(xiàn)現(xiàn)象,整本書中對于AI的威脅的描述主要體現(xiàn)在知識儲備、搜索與匹配角度,而AI對于常識理解不夠這個事情則被當(dāng)成了AI在短時間之內(nèi)無法超越人類的最大缺點,常識理解也是人類最重要的優(yōu)勢。

然而,就是這么一個給人類僅存的希望,在書籍出版的三年后,很大程度上已經(jīng)被大模型推翻了,也就是說,人類除了在死記硬背的知識方面pk不過AI,在之前自以為有優(yōu)勢的常識、理解、推理層面,也出現(xiàn)了巨大裂痕。

馬斯克在最近CNBC的一次采訪中,被主持人問到:“當(dāng)人工智能這項技術(shù)存在并且不斷改進的時候,我不知道該如何給與孩子職業(yè)發(fā)展的建議。我很好奇,當(dāng)你考慮給你孩子的職業(yè)生涯提供建議時,你會告訴他們什么是有價值的?”馬斯克沉默了大約20秒,給出了這樣的答案:

“Well, that"s a tough question to answer. I guess I would just say to follow their heart in terms of what they find interesting to do or fulfilling to do. You know , try to be as useful as possible to the rest of society. ”

也許,這是用一種委婉的方式在表達,未來有99%的可能性你的孩子會被AI和機器人代替,但是我們無能為力。

大劉的短篇小說《朝聞道》里有這樣一段對話:

“這個原始人仰望星空的時間超過了預(yù)誓閥值,已對宇宙表現(xiàn)出了充分的好奇。到此為止,已在不同的地點觀察到了十例這樣的超限事件,符合報警條件。”

排險者露出那毫無特點的微笑說:“這很難理解嗎?當(dāng)生命意識到宇宙奧秘的存在時,距它最終解開這個奧秘只有一步之遙了?!笨吹饺藗?nèi)圆幻靼?,他接著說,“比如地球生命,用了四十多億年時間才第一次意識到宇宙奧秘的存在,但那一時刻距你們建成愛因斯坦赤道只有不到四十萬年時間,而這一進程最關(guān)鍵的加速期只有不到五百年時間。如果說那個原始人對字宙的幾分鐘凝視是看到了一顆寶石,其后你們所謂的整個人類文明,不過是彎腰去拾它罷了?!?/p>

丁儀若有所悟地點點頭:“要說也是這樣,那個偉大的望星人!”

機器人的未來如何將繼續(xù)考驗行業(yè)內(nèi)外許多人的智慧與能力,但是在歷史洪流的發(fā)展進程中,新的拐點或者機遇終將如期而至。

經(jīng)過半個多世紀(jì)的發(fā)展,今天的機器人產(chǎn)業(yè)也許正迎來仰望星空的那一刻。

本文作者:韓峰濤,本文來源:知乎,原文標(biāo)題:《萬字長文,當(dāng)機器人擁抱大模型》

標(biāo)簽:

精彩放送
房產(chǎn)
頭條