专题:2024中国高新技术论坛

  “2024 中国高新技术论坛”于11月14日在深圳举行。深圳市人工智能与机器人研究院(AIRS)具身智能中心主任、世界青年科学院院士刘少山出席并演讲。

  刘少山介绍,AIRSHIP有望成为机器人中的“安卓”。具身智能产业链分上游、中游、下游三部分,上游是零部件,新能源智能车行业很发达,过去十年孵化了很好的零部件产业,这个我们占优。中游是系统集成技术,我们相对落后。下游应用场景又相当丰富。做AIRSHIP的核心目的是希望把中游系统集成技术突破,连接上下游,打通整个产业链,让行业活络起来。

  “我们的代码持续更新,每隔半个月、一个月有更新,支持越来越多机器人形态,希望通过这个项目的开源赋能深圳整个产业的发展”,他说。

  以下为演讲实录:

  刘少山:孟院士提到具身智能有很大的局限性,我们今天想讲一下如何解决具身智能的局限性,也趁这个契机发布一下我们这个开源的项目。总体是希望赋能大湾区机器人企业把这个产业干起来,因为这个产业在我们看来比之前的新能源智能车、手机等等产业都大,今天借这个契机介绍一下。

  我们这个项目叫AIRSHIP,我们希望它成为机器人中的“安卓”。具身智能产业链分上游、中游、下游三部分,上游是零部件,新能源智能车行业很发达,过去十年孵化了很好的零部件产业,这个我们占优。中游是系统集成技术,我们相对落后。下游应用场景又相当丰富。我们做这个项目的核心目的是希望把中游系统集成技术突破,连接上下游,打通整个产业链,让这个行业活络起来,这是它的基本面。

  下面介绍一下具身智能怎么来的。

  刚刚孟院士提到它不是一个新的概念,很多年了,我们简单了解一下它的简史,根据这个看我们在里面能做点什么。

  具身智能1991年是正式定义的时机,有一个教授在麻省理工做了一个很出名的公式,做扫地机器人的。他提出一个概念是得跟环境的互动学习智能,这就是具身智能的雏形。但90年代学机器人是不太好的学科,因为出来找不到工作,最火的是并行计算、计算机体系结构。经过八年的发展,具身智能的概念被另外两位教授进一步扩展,写了一本《理解智能》,深入阐述什么是具身智能,什么是环境互动,什么是从环境中学习,整个机制有一个系统性框架了。前面两个工作还是从计算机科学的学科发展的,从另外一个学科找到一个新的证据,儿童心理学家琳达·史密斯研究儿童在成长阶段怎么学习,提出了具身感受,儿童学习和成长时跟环境的互动才是最重要的一环。

  经过这三个工作,简单做一个总结。具身智能到底是什么?具身智能的系统不能依赖于复杂的编程,今天看到很多智能驾驶企业正是卡在这个问题上,每当遇到一个新的路口,可能需要工程师大量的投入,堆砌新的程序才能处理一个新的场景。今天无人驾驶行业活得相对没有那么舒适,靠融资推进的。但互联网行业不依赖于写代码多少,依赖于算力、数据,所以互联网公司相对盈利比较好。具身智能也一样,如果是依赖写代码支撑特殊场景,是没有通用性的。二是需要一个很好的学习机制,从环境中学习,有一个反馈的机制。三是环境起到了决定性的作用。这就是为什么现在元宇宙、仿真行业逐渐变得越来越重要了,因为它提供了一个虚拟环境让你学习。

  这是三个基本要素,做具身智能缺乏其中一个就很难做起来,所幸的是过去十年学术上这三个核心要素都已经被满足了。

  大模型是处理什么事?不管是大语言模型、视觉语言模型,处理的是原则一。

  原则二,学术上几年前《Nature》上有一篇论文说深化学习机制怎么从环境中互动学习,所以基本的学习机制理论也成立了。

  很多公司投入很大,这幅图展示的是Meta做的Habitat虚拟环境,为扫地机器人、室内服务机器人提供虚拟环境实验,所以虚拟环境在业界投入也很大。

  现在我们差了什么?三大挑战:算法、算力、数据,把一个具身智能从学术界变成产业,现在卡在这三个核心问题上。

  这是一个很简单的软件栈,中间是三星的产品,明年会上市。形态是扫地机底盘加屏幕再加一个机械手。但要为它搭建一个软件就极其复杂,上面有移动部分,涉及到规划等等。下面是抓取部分,又是另外一个复杂的软件栈,左边是空间、地图、理解空间,右边是通过大模型和人互动的部分。搭一个那么简单的软件栈今天就很难成立,因为它太复杂了。

  今年世界机器人大会发布了很多机器人,了解背后,要让机器人动起来,都要扛一个几千美金的计算器,通常是高端的英伟达芯片驱动。它很难达到性价比让它大规模出货。我们希望能不能在50-100美金之间把具身智能软件栈完整做起来。第二个挑战是计算系统的缺失。

  第三个挑战,数据。数据是特别重要的,看数据有多重要之前先回答数据有多值钱。先看互联网的数据,假如你是一个用户,你对谷歌或者Facebook值多少钱,大概500美金。现在互联网有50亿用户。基本上是3万亿美金的产业。机器人,假使用马斯克的说法,最后有100亿台机器人在市场上,每台2-3万美金,数据上的支出大概1000美金,轻松可以形成10万亿美金的产业,但今天核心问题还是数据量不足。数据量怎么衡量?性别、年龄、财产状态、消费喜好等等。但机器人需要的是更多种类的数据,比如抓取一个话筒,这也是一个种类的数据,摆动一个话筒又是另外一个种类的数据,数据的多样性而不是纯数据量是更重要的。

  AIRSHIP,这是我们一个开源的项目,目的是把以上三个问题解决,推动产业的发展。

  AIRSTONE,比如50-100美金把全栈的具身智能跑起来,目前已经取得很好的成果,随着AIRSHIP系统做开源。目的是厂家50美金的芯片能把整套具身智能跑起来。

  第三个是数据开源,叫AIRSPEED。今年我们去看了一个工厂,这位小哥,每年厂商对他的支出包括社保等等8-9万人民币,他每天8小时就干这一个活,不断重复这种动作。这种品类的工作,我们预测随着具身智能的到来很快会被取代。目前就是数据量不足,有数据量就能训练出来轻易取代一些高度重复性的工作。这个工作也是希望提供很好的工具链,让厂商快速取得数据。

  简单介绍一下AIRSHIP,它的架构是有一个大模型,不管是视觉模型还是大语言模型,能跟人交互,再把交互过程中人的意图切分。比如这个展示中,这个小哥说“我饿了”,会切分它的意图,并找到地图中哪里有苹果和食物,把食物抓取送给他。这整套机制都完成开源,硬件也开源了,有兴趣可以轻易打造这套系统。

  软件架构,人有一个意图,当意图下来之后通过模型给意图做一个很细致的拆解,再通过拆解把任务分发下去执行。后续工作会支持越来越多机器人品类。

  硬件架构还是开源,用复合机器人的形态,一个简单的底盘加机器手,很简单的形态就能跑起完整的具身智能作业。

  刚才提到的三个要素,仿真特别重要,没有仿真很难从中提炼数据,所以要把整套机制导入到仿真引擎。目前使用的是英伟达的引擎,它的仿真度很高,提炼算法时也可以知道一个新的场景,比如家庭使用场景,轻易在场景中提取数据,通过数据的提炼优化算法。

  我们是深圳市人工智能机器人研究院,所以我们做任何事都是希望扶持行业的发展,这是我们已经对接的厂商包括新零售机器人雏形,已经使用上了AIRSHIP的系统,包括扫地机器人。扫地机器人有一个很特殊的新需求,在家里打扫,覆盖率不高,可能是家里有一些小物件阻碍了,通过家用机械臂在很低的成本下把这些东西清除。右边是一个剪草机器人,有很多细节场景,需要把手臂加上处理一些不同场景。右上角是高端服务机器人场景。第一步已经覆盖了多个品类。

  不仅是代码开源,学术也开源,最近有些学术成果,计算成果最近在中国科学院刊发表文章分析了计算状态,随着AIRSHIP的开源,写了一本书介绍系统怎么搭建的,右边是FPGA,在上面怎么进行具身智能的计算。

  我们的代码持续更新,每隔半个月、一个月有更新,支持越来越多机器人形态,希望通过这个项目的开源赋能深圳整个产业的发展,谢谢各位!   

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。