刘少山：AIRSHIP赋能中国具身智能产业发展

专题：2024中国高新技术论坛

　　“2024 中国高新技术论坛”于11月14日在深圳举行。深圳市人工智能与机器人研究院（AIRS）具身智能中心主任、世界青年科学院院士刘少山出席并演讲。

　　刘少山介绍，AIRSHIP有望成为机器人中的“安卓”。具身智能产业链分上游、中游、下游三部分，上游是零部件，新能源智能车行业很发达，过去十年孵化了很好的零部件产业，这个我们占优。中游是系统集成技术，我们相对落后。下游应用场景又相当丰富。做AIRSHIP的核心目的是希望把中游系统集成技术突破，连接上下游，打通整个产业链，让行业活络起来。

　　“我们的代码持续更新，每隔半个月、一个月有更新，支持越来越多机器人形态，希望通过这个项目的开源赋能深圳整个产业的发展”，他说。

　　以下为演讲实录：

　　刘少山：孟院士提到具身智能有很大的局限性，我们今天想讲一下如何解决具身智能的局限性，也趁这个契机发布一下我们这个开源的项目。总体是希望赋能大湾区机器人企业把这个产业干起来，因为这个产业在我们看来比之前的新能源智能车、手机等等产业都大，今天借这个契机介绍一下。

　　我们这个项目叫AIRSHIP，我们希望它成为机器人中的“安卓”。具身智能产业链分上游、中游、下游三部分，上游是零部件，新能源智能车行业很发达，过去十年孵化了很好的零部件产业，这个我们占优。中游是系统集成技术，我们相对落后。下游应用场景又相当丰富。我们做这个项目的核心目的是希望把中游系统集成技术突破，连接上下游，打通整个产业链，让这个行业活络起来，这是它的基本面。

　　下面介绍一下具身智能怎么来的。

　　刚刚孟院士提到它不是一个新的概念，很多年了，我们简单了解一下它的简史，根据这个看我们在里面能做点什么。

　　具身智能1991年是正式定义的时机，有一个教授在麻省理工做了一个很出名的公式，做扫地机器人的。他提出一个概念是得跟环境的互动学习智能，这就是具身智能的雏形。但90年代学机器人是不太好的学科，因为出来找不到工作，最火的是并行计算、计算机体系结构。经过八年的发展，具身智能的概念被另外两位教授进一步扩展，写了一本《理解智能》，深入阐述什么是具身智能，什么是环境互动，什么是从环境中学习，整个机制有一个系统性框架了。前面两个工作还是从计算机科学的学科发展的，从另外一个学科找到一个新的证据，儿童心理学家琳达·史密斯研究儿童在成长阶段怎么学习，提出了具身感受，儿童学习和成长时跟环境的互动才是最重要的一环。

　　经过这三个工作，简单做一个总结。具身智能到底是什么？具身智能的系统不能依赖于复杂的编程，今天看到很多智能驾驶企业正是卡在这个问题上，每当遇到一个新的路口，可能需要工程师大量的投入，堆砌新的程序才能处理一个新的场景。今天无人驾驶行业活得相对没有那么舒适，靠融资推进的。但互联网行业不依赖于写代码多少，依赖于算力、数据，所以互联网公司相对盈利比较好。具身智能也一样，如果是依赖写代码支撑特殊场景，是没有通用性的。二是需要一个很好的学习机制，从环境中学习，有一个反馈的机制。三是环境起到了决定性的作用。这就是为什么现在元宇宙、仿真行业逐渐变得越来越重要了，因为它提供了一个虚拟环境让你学习。

　　这是三个基本要素，做具身智能缺乏其中一个就很难做起来，所幸的是过去十年学术上这三个核心要素都已经被满足了。

　　大模型是处理什么事？不管是大语言模型、视觉语言模型，处理的是原则一。

　　原则二，学术上几年前《Nature》上有一篇论文说深化学习机制怎么从环境中互动学习，所以基本的学习机制理论也成立了。

　　很多公司投入很大，这幅图展示的是Meta做的Habitat虚拟环境，为扫地机器人、室内服务机器人提供虚拟环境实验，所以虚拟环境在业界投入也很大。

　　现在我们差了什么？三大挑战：算法、算力、数据，把一个具身智能从学术界变成产业，现在卡在这三个核心问题上。

　　这是一个很简单的软件栈，中间是三星的产品，明年会上市。形态是扫地机底盘加屏幕再加一个机械手。但要为它搭建一个软件就极其复杂，上面有移动部分，涉及到规划等等。下面是抓取部分，又是另外一个复杂的软件栈，左边是空间、地图、理解空间，右边是通过大模型和人互动的部分。搭一个那么简单的软件栈今天就很难成立，因为它太复杂了。

　　今年世界机器人大会发布了很多机器人，了解背后，要让机器人动起来，都要扛一个几千美金的计算器，通常是高端的英伟达芯片驱动。它很难达到性价比让它大规模出货。我们希望能不能在50-100美金之间把具身智能软件栈完整做起来。第二个挑战是计算系统的缺失。

　　第三个挑战，数据。数据是特别重要的，看数据有多重要之前先回答数据有多值钱。先看互联网的数据，假如你是一个用户，你对谷歌或者Facebook值多少钱，大概500美金。现在互联网有50亿用户。基本上是3万亿美金的产业。机器人，假使用马斯克的说法，最后有100亿台机器人在市场上，每台2-3万美金，数据上的支出大概1000美金，轻松可以形成10万亿美金的产业，但今天核心问题还是数据量不足。数据量怎么衡量？性别、年龄、财产状态、消费喜好等等。但机器人需要的是更多种类的数据，比如抓取一个话筒，这也是一个种类的数据，摆动一个话筒又是另外一个种类的数据，数据的多样性而不是纯数据量是更重要的。

　　AIRSHIP，这是我们一个开源的项目，目的是把以上三个问题解决，推动产业的发展。

　　AIRSTONE，比如50-100美金把全栈的具身智能跑起来，目前已经取得很好的成果，随着AIRSHIP系统做开源。目的是厂家50美金的芯片能把整套具身智能跑起来。

　　第三个是数据开源，叫AIRSPEED。今年我们去看了一个工厂，这位小哥，每年厂商对他的支出包括社保等等8-9万人民币，他每天8小时就干这一个活，不断重复这种动作。这种品类的工作，我们预测随着具身智能的到来很快会被取代。目前就是数据量不足，有数据量就能训练出来轻易取代一些高度重复性的工作。这个工作也是希望提供很好的工具链，让厂商快速取得数据。

　　简单介绍一下AIRSHIP，它的架构是有一个大模型，不管是视觉模型还是大语言模型，能跟人交互，再把交互过程中人的意图切分。比如这个展示中，这个小哥说“我饿了”，会切分它的意图，并找到地图中哪里有苹果和食物，把食物抓取送给他。这整套机制都完成开源，硬件也开源了，有兴趣可以轻易打造这套系统。

　　软件架构，人有一个意图，当意图下来之后通过模型给意图做一个很细致的拆解，再通过拆解把任务分发下去执行。后续工作会支持越来越多机器人品类。

　　硬件架构还是开源，用复合机器人的形态，一个简单的底盘加机器手，很简单的形态就能跑起完整的具身智能作业。

　　刚才提到的三个要素，仿真特别重要，没有仿真很难从中提炼数据，所以要把整套机制导入到仿真引擎。目前使用的是英伟达的引擎，它的仿真度很高，提炼算法时也可以知道一个新的场景，比如家庭使用场景，轻易在场景中提取数据，通过数据的提炼优化算法。

　　我们是深圳市人工智能机器人研究院，所以我们做任何事都是希望扶持行业的发展，这是我们已经对接的厂商包括新零售机器人雏形，已经使用上了AIRSHIP的系统，包括扫地机器人。扫地机器人有一个很特殊的新需求，在家里打扫，覆盖率不高，可能是家里有一些小物件阻碍了，通过家用机械臂在很低的成本下把这些东西清除。右边是一个剪草机器人，有很多细节场景，需要把手臂加上处理一些不同场景。右上角是高端服务机器人场景。第一步已经覆盖了多个品类。

　　不仅是代码开源，学术也开源，最近有些学术成果，计算成果最近在中国科学院刊发表文章分析了计算状态，随着AIRSHIP的开源，写了一本书介绍系统怎么搭建的，右边是FPGA，在上面怎么进行具身智能的计算。

　　我们的代码持续更新，每隔半个月、一个月有更新，支持越来越多机器人形态，希望通过这个项目的开源赋能深圳整个产业的发展，谢谢各位！

　　新浪声明：所有会议实录均为现场速记整理，未经演讲者审阅，新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。