从具身到智能,无尽前沿丨智源具身智能峰会观点集锦(上)

创建时间:2024-11-22 17:38

01

 

赵明国丨清华大学自动化系教授,加速进化联合创始人

 

 

当前,人形机器人和具身智能成为社会热点,我们的愿景是让机器人能像人一样提出需求,即达到人类水平在具身智能领域,我们关注腿足的约束,例如踢足球。

RoboCup作为人工智能的挑战,对年轻人来说可能不太熟悉,但它是AI领域的重要事件,始于1997年,目标是到2050年机器人足球队能战胜人类冠军。RoboCup的挑战在于环境感知、状态转变、信息完整性、传感器可读性和控制等方面。DeepMind在《Science》上发表的文章显示,通过强化学习,机器人踢足球的技能正在进步。

我们团队在机器人行走技术上取得了显著进展。首先,我们开发了一种基于虚拟斜坡的被动行走方法,利用积木结构原理实现先天稳定性,这使我们在2007年的比赛中取得了优异成绩。

 

 

随着强化学习方法的出现,我们开始转向这种新方法。我们首先在仿真环境中测试,然后将成果应用到实际中,效果显著。我们进一步整合了视觉系统,使机器人能在比赛中控制球并尝试射门。为此,我们建立了一个全尺寸的实验室场地,并安装了动作捕捉设备以收集数据。

我们的目标是让机器人自主比赛,包括感知环境、做出决策、运动能力和合作对抗。在技能方面,行走、竞争性、复杂动态环境和稳定性是关键。我们在比赛中达到了每秒1.2米的速度,但仍需完善。不确定性和偶然因素在比赛中也起着重要作用。我们从简化模型开始,逐渐进入优化控制,再到以学习为主的全身控制。具身智能需要更多的感知和行为变化,这是我们的目标。我们将专注于腿足方向,通过学习的方法提升机器人的足球技能。

 

02

 

仉尚航丨智源具身多模态大模型研究中心负责人

在大模型的助力下,具身智能可以同时完成多种任务。团队的研究目标是构建具身智能的基础模型和大规模数据,实现机器人领域的Scaling Law。根据这个目标设计了一种面向长程的闭环系统,接下来介绍一下实现的两种技术路线。

第一种是做具备快慢系统的端到端大模型。模型首先具有一个快系统,可以直接将末端执行器的Pose预测重构为语言建模问题,利用初始状态的图像和文本的Prompt去生成Action和Pose。对于慢系统,模型会利用结束状态的图像和结束执行器状态进行失败检测,并请专家系统进行反馈,从而纠正错误。同时设计了一个持续性的策略更新机制,能够将慢系统学到的知识不断迁移到快系统中,让模型得到不断进化和提升。

对于长程复杂任务进一步会采用技术路线二,也就是分层结构。该结构包括大脑模型和小脑模型:大脑模型可以做任务拆解、任务规划,对小脑模型做提示;小脑模型具体执行分解的原子任务。同时这种分层结构也包含底层系统的支持,使得模型可以跨越不同的本体,面向不同的场景应用。面向具身智能的小脑大模型应同时具备高效性和强推理能力。据此团队提出了基于Mamba的基础模型—RoboMamba。这种模型可以把推理和操作集为一体,并且设计了一个高效微调策略,只需微调少量参数,就能实现整个模型到新场景、新本体、新任务上的迁移。

在机器人导航领域有一个非常重要的任务,就是Object go navigation。这里采用的是分层的Zero shot object navigation架构,因为分层模型有更高的准确率。模型包含一个感知模块,在模块中设计了一个Voronoi算法,利用稀疏化机制和拓扑结构进行视觉场景的记忆。模型另外包含了一个Decision making模块,使用大语言模型帮助分析和决策。

无论是端到端模型还是分层结构,都希望能够更好地理解物理世界中的物理规律,更好地实现交互,实行时序上的准确的Action。研究利用理解模型和生成模型的统一概念,形成自我反思的思考链,将复杂视频的预测分解为四个原子的任务去处理,包括了Action description、Finish think、How To 和 Next step。针对具体的视频预测,提出了EVA预测框架,这是一种利用理解生成统一化的架构来实现具身智能的世界模型。

为了解决开放世界中的具身智能问题,团队提出了Robo4D方法。通过构建一个4D空间,采用先验引导的3D的Gaussian splatting算法,基于单一视角的视频片段,就可以生成一个四维的世界空间,并且利用该世界空间提升了机器人操作的泛化性,当视频质量不够好时,还可以通过世界空间的映射进行多轮优化,来提升生成的4D空间的视频质量。

为了进一步加速大模型的研发,团队专门提出了Llama2-accessory.readthedocs的工具链,目前GitHub已经有2000个stars,还被字节跳动等公司尝试使用。下一步会基于大模型工具链提出Robot大模型工具链,并且构建一个Never Ending Robot Learning开源社区,希望在这个社区中,可以Never Ending去收集和标注机器人的训练数据,以及Never Ending去更新最新研究的模型。

 

03  通向通用机器人合成数据驱动的具身多模态

王鹤丨智源具身智能研究中心负责人、北京大学助理教授、银河通用创始人

 

通用机器人旨在解决专用机器人的局限性,如任务重复、缺乏泛化能力、无法多任务处理和移动性差、部署使用困难等问题。Nvidia的GTC大会上提出的Project Groot反映了对通用机器人的关注,人形机器人只是实现通用性的一种形态。

通用机器人的市场规模将达到万亿级别,它应能通过自然语言与人类沟通,实现零代码部署。目前的工业机器人市场规模相对较小,且大多数专用机器人只能在特定轨迹上操作。通用机器人的意义在于其为不同移动操作目的打造的通用智能体。

实现通用机器人需要大模型支持,但现有图文大模型不足以满足需求,因为通用机器人需要输出动作。谷歌的RT-2工作提出了结合视觉、语言和动作的联合大模型VLA,这个模型把大脑的感知和对任务的规划与小脑对肢体的控制、动作的生成集为一体,我们管它叫全脑大模型。但训练此类模型需要大量数据。谷歌通过跨本体方式整合了多个数据集,但数据量与自动驾驶训练数据相比仍有差距。

在Open X Embodiment之后,学界开发了多种模型如Open VLA和π0,但这些模型的泛化能力及是否达到基础模型水平仍有疑问。自媒体对这些技术的乐观态度与实际测试困难形成对比,因为这些模型不支持新环境中的直接部署测试,且在实验室测试成功率为0。相机视角、物体摆放和特定机器人的不可获得性增加了评测难度。

这些问题导致对具身智能发展水平的误解,实际应用与宣传之间存在差距。如果这些模型真的泛化能力强,家用机器人应该已经普及,但实际上我们离此还有至少十年。因此,评估这些模型的真实水平变得重要。

我们认为现有数据不足以支持通用机器人的发展,因此我们专注于三维模态,通过合成仿真生成数据

我们的团队在2023年创建了一个零部件数据集,对家用物体进行标注,并在CVPR2023上获得认可。基于这些数据,我们生成了符合物理规律的动作标签,如DexGraspNet在ICRA2023上获得提名。我们还仿真了传感器,以弥合仿真与现实世界之间的差异。

我们的方法依赖于三维模态,它对距离有直接反应,提供操作模型所需的充分信息,并对纹理、阳光、颜色具有不变性,从而实现高数据效率。通过图形学渲染和物理方式产生动作标签,我们可以无限创造所需数据。

为了将二维图像升维到三维,我们使用Diffusion Model预测视差,输入双目AR图片,输出深度信息。这个模型在合成大数据上训练,覆盖了各种物体、摆放、纹理和光照。这样的数据可以大规模生成,用于测试真实世界的物体。

我们还在三维表征基础上进行强化学习,并在ICCV2023上获得最佳论文提名。我们创建了一个10亿规模的数据集,覆盖了各种物体,进行大规模抓取标签生成。这个数据集使我们训练的扩散模型能够以90%以上的成功率抓取任何给定物体。

我们的工作展示了合成数据在桌面和足式机器人上的应用,通过全身强化学习和合成数据训练的手部抓取,实现了对各种场景的泛化。我们的方案在北大未名湖周围的捡垃圾任务中展示了89%的泛化性。

此外,我们的Aloha项目展示了合成数据在更复杂任务,如叠衣服上的应用。通过在仿真环境中对数万件衣服进行合成仿真,我们训练出了能够处理各种衣服的能力,完全基于合成数据。

总的来说,我们的工作表明合成数据是实现具身智能通用性的有效方案,能够产生大量数据,用于训练和泛化模型。

我们的工作表明,合成数据可以用于抓取、开柜子、开抽屉等操作,以及全身机器人的运动控制和灵巧手操作。我们还提供了一个Benchmark,用于评测模型的真实水平。我们使用ChatGPT-4V结合抓取和放置任务,取得了一定的成功率,并在端到端导航大模型中加入了三维模态,以提高导航能力。

我有三点思考:

第一,空间智能一定要注重三维空间几何理解。

第二,用合成来替代真实世界采集。

第三,要有好硬件。

04  具身智能机理与技术浅析

蒋树强丨中国科学院计算技术研究所研究员

 

具身智能是人的一种重要的体现方式,是通过身体与环境互动来实现的智能。下面从个人的思考来浅谈对具身智能的认识。

智能体,一般认为人是一个智能体,动物也是一个智能体,同时还包括广义的机器人。智能体有四个性质:服从于物理法则;通过运动产生感觉刺激,不仅包括感知,并且包含运动决策;从事的行为对环境产生影响;身体可以做一些形态学的计算。

具身智能的定义,还包含涉身性、交互性、主动性和情境性等特点。

  • 涉身性。具身智能的属性是“大脑、小脑、本体紧密耦合、互相支撑”。
  • 具身智能需要有交互性。它不止和用户进行交互,也需要跟环境进行交互,也需要跟其他智能体进行交互。
  • 具身智能有自主性。包括自主行为、自主对话、自主决策、自主任务等。
  • 具身智能的情境性。具身智能一定要有情境性,包括自然语言的理解需要在一定的上下文环境下进行。对于做任何任务的理解需要有一定的情境性,这里涉及到上下文的环境,还有个性化意图,拟人化的情感,还有可计算的意识。

具身智能需要智能体具有感知、推理、行为、表达和学习的综合能力,需要具备连续学习的能力。个人认为具身智能未来的发展趋势,是对物理世界有好的认识,要有一定的主动性,这样才能更好地完成任务。

关于大模型的未来,个人有两个观点:第一,大模型的发展是值得期待的;第二,具身大模型的发展才刚刚开始。大语言模型采用Transformer、自注意的方式、Token的关联等方式处理文本是适合的,但应用到视频领域会出现其他的问题,比如视觉数据量远远超过目前能处理的数量范围,而在具身场景下产生的数据量比视觉数据量还要高一个数量级。还有数据积累的问题,至今还没有理想的解决方案。

具身导航是指在一个开放环境中,如何找到想去的位置。它需要有视觉能力,需要做路径规划,需要做端到端或模型学习,最后做决策。世界模型和人工智能需要的模型预测能力非常强,无论是对环境的预测、行为的预测还是对轨迹的预测。具身智能有多个方面值得深入思考,需要从不同视角和不同方面做,有很多工作值得我们去攻克。

 

05

 

房宽丨康奈尔大学助理教授,前波士顿动力研究员

 

AI领域的长远目标是让机器智能适应开放环境。过去几十年,机器学习、计算视觉和机器人控制的进步显著,但我的工作专注于将传统建模与新兴技术结合,推动具身智能的发展。尽管无人车和智能理解领域有很多应用,但这些应用大多局限于特定领域和有限环境。

要让机器人进入家庭和更开放的环境,我们还有很长的路要走。过去几年,计算机视觉和自然语言处理取得了惊人进步,主要得益于模型和数据规模的扩大。然而,对于机器人智能来说,收集大规模、多样化任务场景的数据更为困难,因为机器人与真实世界的交互需要更多时间和经济成本。

尽管如此,过去几十年的机器人发展提供了大量工具,帮助我们深入理解物理世界、建模和有效解决控制和路径规划问题。但这些工具需要已知的环境模型,而强化学习等方法并不能很好地解决需要语义理解的任务。

最近在视觉和语言领域的基础模型进步为我们提供了处理语义理解的工具,但这些模型还不具备很好的物理或空间理解能力。我们的目标是利用这些模型控制机器人,即使它们没有见过机器人控制数据。

我们通过将路径规划问题转化为一系列通用的问题来回答,让视觉语言模型(VLM)解决。我们使用关键点表征,如抓取点,来描述任务。这些关键点与具体的硬件形态关联小,因此VLM可以预测这些点,而无需对机器人硬件有深入了解。

我们还研究了如何通过真实世界的物理交互提升语义理解能力,以实现更复杂、更长时间的任务。我们希望使用开源机器人数据集训练一个基于语言的策略,以控制机器人完成未见任务。

我们的工作展示了如何通过结合语义理解和物理理解的工具,解决开放式世界的机器人控制问题。我们提出了一种方法,通过生成数据来微调预训练的VLM,以提高任务效果我们还提出了一种策略,通过适应预先训练的政策,使用语言优化来解决未见任务。我们探讨了如何通过VLM提供反馈来进一步训练策略,解决新任务,并扩展了基于关键点的VLM预测方法。我们的工作还包括结合VLM和物理仿真,让VLM更好地进行机器人组装任务。

06  圆桌讨论:具身智能技术与应用发展前沿展望

 

Q1. 王仲远:如何看待近年来的具身智能研究热潮,这个热潮能持续多久?

赵明国:我也在不断地更新我的观念。我并非最顶尖的聪明人,不是每件事都能跟上。有些技术浪潮我能赶上,有些则不能。现在很多公司也是这样,在上一波智能技术浪潮中表现很好,但这一波就可能会慢下来。在2014年那波技术浪潮中,我们在实验室中尝试直接对实物做强化学习,但经过一番争论后放弃了。现在的机器人研究者将强化学习用得很好,但我们很晚才赶上这一波。我的感受是,发展是有阶段性的,有成本的考虑。

回顾历史,很多事情在上一个时代也做过,我认为应该把传统技术和前沿技术结合起来。以前我们在信息量很少的情况下也可以精准建模,模型是我们脑海里世界的真实反应。但这一波技术浪潮用到的知识和技术非常多,要把它们深刻理解透挺难的。即使我们取得一些很好的结果,也不见得懂得了技术背后的真正含义。我认为要非常谨慎地拥抱新技术,反复思考技术的过去、现在、未来,包括具身智能的概念。

具身智能强调的是智能。传统智能机器人强调的是机器人。随着研究的不断深入,大家对二者之间的关系会有不同的理解和思考。

王鹏:具身智能不是一个新概念,这个概念在二十年前就有了,只不过更早时是强调机器人本体加上一定的人工智能,增强的是本体本身的能力。具身智能的发展初期,移动和感知能力迅速提升,而操作能力因人工智能的限制而相对滞后。近年来,人工智能的进步推动了硬件与软件的结合,使得移动和操作能力变得更为复杂。同时,人工智能的发展也对硬件提出了更高的要求,硬件和软件的迭代相互促进。

Q2. 王仲远:半年来,整个具身智能行业发生了怎样的变化?

王鹤:在学术界和初创公司中,具身智能技术正迅速发展。初创公司面临的挑战是确定具身智能技术在哪些场景中能够实际应用,以及通用机器人是否能够比专用机器人更广泛地打开市场。过去半年,许多初创公司展示了他们在汽车制造领域的技术,如电池拾取和更复杂的操作。车厂成为了具身智能技术落地的一个主要领域,因为它们有明确的需求并且有能力支付。

然而,许多研究的演示仍然只存在于视频中,真正的挑战在于将技术整合到生产线中,确保全天无故障运行以满足车厂的期望。在零售领域也有所尝试。学术界则呈现出多样化的研究,专注于家庭服务机器人,特别是抓取和放置的基本功能。

站在工业界和学术界的交汇点,我强调需要务实的态度。在讨论技术实现时,必须明确实现的条件、训练成本和预期效果。否则,我们可能会陷入无法实现的神话或无能为力的现实之间。我们团队的理念是利用大数据来优化抓取和放置这两个基本动作,这能够解决许多实际问题,并且学术研究在这一领域还有很大的发展空间。

顾捷:今年,人形机器人行业异常火热,竞争激烈。五年前,这个领域还很孤独,参与者寥寥无几。特斯拉推出人形机器人后,公众对这一概念的接受度提高,不再需要过多解释。ChatGPT的出现预示着从固定编程向学习型算法的转变,预示着新的智能终端可能出现。然而,机器人技术尚未达到iPhone那样的突破时刻,大模型还处于早期阶段,无法精确控制机器人进行复杂操作,现实世界的理解仍有待提高。

回想七八年前,外骨骼机器人领域也有过类似的热潮,但最终只有极少数公司成功。预计人形机器人在未来几年也会面临激烈的竞争。尽管如此,行业的快速发展令人兴奋,吸引了大量人才和资金。客户开始探索人形机器人在各种场景中的应用,这为行业带来了巨大的推动力。同时,行业也存在一定的焦虑。

目前,行业分为几个部分:一些公司以大模型为核心做研发,一些则专注于机器人本体和身体制造,还有公司专注于核心零部件。目前行业还未完全进入下游应用阶段,场景尚未成熟。预计未来将有大量公司专注于下游应用和开发,而不是大脑、本体和零部件的制造。这需要整个生态系统的合作,包括车厂和各种场景的应用集成。我们对行业明年的发展保持乐观态度,但竞争将持续存在。

冷晓琨:自2016年成立以来,乐聚机器人一直致力于双足人形机器人的研发。在公司成立初期,乐聚专注于开发能够行走的机器人,很多投资人对此持怀疑态度。然而,随着特斯拉等公司对人形机器人的推广,公众的认知和接受度有了显著提升,乐聚的愿景和努力开始得到更多的认可和支持。

到了2023年,乐聚机器人的发展迎来了转折点。随着国家政策的支持,人形机器人行业开始迅速发展,从最初的几家公司增加到数百家。这一变化标志着人形机器人行业的爆发期可能比预期提前了三到五年。具身智能和大模型确实让大家看到了通用机器人和人形机器人爆发的可能性。尽管如此,技术迭代仍然按照常规速度进行,这意味着虽然大众的认知提前了,但技术发展仍需时间。

过去,人们对机器人的期望是既便宜又智能,但如何实现这一点尚不清楚。现在,虽然看到了实现这些目标的路径,但技术还未完全融合。2022年之前,研究集中在机器人的行走技术上,但随着各种行走视频的普及,人们对机器人行走的能力已不再新奇。现在,关注的焦点转移到了如何将机器人融入实际场景。

Q3.王仲远:潘家怡博士,您为何选择Agent和具身智能作为自己的研究方向?

潘家怡:随着具身智能逐渐工程化,它不再适合作为博士生的主要研究课题,因为工业界的竞争压力巨大。现在,博士生更倾向于选择更前沿的研究方向。这些领域仍有许多未探索的内容,科研人员正在逐步点亮科技树,寻找技能配方。在这种情况下,博士生有机会进行更有意义的研究工作。

Q4.王仲远:赵老师,您提到了现阶段机器人的稳定性需要进一步加强。怎么看待现在本体研发的真实状况呢?

赵明国:机器人的应用正在扩展,但面临成本与智能之间的矛盾。虽然已有扫地机器人等产品,但要实现更高级的应用,要进入工厂的生产环节存在巨大挑战。这需要巨大的投入,但若不尝试,问题无法解决。

目前,扫地机、泳池机、割草机等智能产品不断演进,但要从这些产品直接过渡到人形机器人进工厂,需要探索中间态,逐步推进技术发展,而不是一开始就追求高难度应用。

具身智能更侧重于方法论,而智能机器人则侧重于应用。企业在开发智能机器人,学术界在研究具身智能,两者的结合不一定要一开始就完全理解具身智能或立即应用,而是要找到能满足的应用场景,以此推动发展。

尽管技术尚未完善,但企业家们应寻找现有具身智能的应用机会,而学术界和研究院则应致力于解决原理、机理和方法上的未解决问题。不应只集中在工厂应用,而应探索更广泛的应用场景。

Q5.王仲远:如何看待人形机器人落地的速度?

顾捷:认同马斯克关于未来人形机器人数量超人类的愿景,但短期内应用落地速度不宜过于乐观。目前产品需迭代一到两代才能实现高频、高负载和商品化使用。仍然需要发展技术,明年全球能落地千台以上人形机器人就很不容易了,大规模应用需技术突破和商品化。与过去相比,人形机器人市场已拓展至院校科研外,尝试POC后可能带来一定需求。

Q6.王仲远:乐聚怎么看人形机器人在接下来一两年的发展?

冷晓琨:人形机器人正成为产业新热点,预计从今年下半年到明年将有显著发展。进入产业的初期,效率和成本可能不理想,但随着资源的整合和国内产业需求的推动,迭代将加速。乐聚正与一汽、蔚来等公司合作,探索工业场景应用, 逐步让人形机器人达到实际工业场景的效率需求。

尽管工业场景为人形机器人提供了一个中转点,但真正的爆发点预计将在服务家庭场景,这可能在未来10至15年内实现。目前,企业和研究机构正在探索中间阶段的应用场景,以确保在人形机器人大规模普及前能够生存下来。

Q7.王仲远:灵巧手开始从实验室进到产业阶段了吗?灵巧手有这么多的自由度,到底多少自由度是够的?

王鹏:这波人形机器人和具身智能的热潮与特斯拉的战略及大模型的快速发展紧密相关。特斯拉的灵巧手发展迅速,从第一代的1个关节自由度和6个驱动自由度,第二代是11个关节自由度和10个驱动自由度,第三代是的22个关节自由度和17个驱动自由度。这种发展不仅体现在自由度的增加,还体现在实用性上,特斯拉的出发点是让灵巧手逐步变得可用。

我们的团队多年前就开始研发灵巧手,包括结合AI的类人灵巧手操作能力。最初,人们关注的是灵巧手能做什么,现在则更多地关注手和人形机器人的结合,以及它们在各种案例中的应用潜力。灵巧手的发展涉及硬件本体的进步,包括自由度、负载能力、寿命和成本。

灵巧手作为硬件载体,需要与大模型和AI结合以释放其能力。在特种应用领域,如遥操作抓取和放置,现在还需要人的参与。在工业领域,灵巧手需要一定的柔性和适应性,这还有一段距离。家庭中需要具有操作能力的机器人,但目前还没有类似产品。因此,无论是灵巧手还是结合AI的灵巧手,通过与全身和AI协同形成的通用操作能力产品,在技术、产业和落地方面都有很大的前景。

Q8.王仲远:您认为灵巧手的研发目前达到了什么阶段,什么时候可以进入产业界呢?

王鹤:灵巧手是最终通向C端并不可少的终端,它能覆盖很多不同的任务。从技术上来讲,我们对灵巧手的硬件和数据、智能都进行了深入研究。灵巧手是整个人形机器人里最难的硬件。因为它把极大的自由度浓缩在一个非常小的体积里,我们必须得在它的力量、自由度和价格、可靠性这四个层面做权衡。目前还没有一个方案兼具低成本、高灵巧度、高可靠性、力量。灵巧手是个典型的具身智能应用场景,它需要软硬件和数据联合迭代优化。可能在第一波具身智能的落地中,灵巧手不会扮演一个主要的角色。但是在具身智能真正大爆发来临之前,我们一定要把灵巧手技术做好,无论是软件还是智能。

 

Q9.王仲远:行业传说特斯拉用几百台机器人采征数据,在WeRobot的展示非常丝滑,您认为是摇操作吗?通过征集数据,真的能实现泛化智能吗?

 

王鹤:我认为特斯拉的Optimus Gen2表现不错,得益于其完整的供应链,特斯拉在人形机器人迭代上速度领先。控制频率和精确度令人印象深刻。对于其展示,我认为并非遥控操作。视频中,机器人在桌子上摆放相同礼品袋的情况下,能够精准抓取,展现出类似人类的肢体语言。

我猜测这使用了数字人技术,同步生成语音和身体动作,给人一种真人的错觉。但它的抓取泛化性仅限于特定物体,未展示对其他物体的抓取能力。此外,操作环境如位置、灯光、桌子高度等均未变化,因此其泛化性可能仅限于特定条件。

总的来说,特斯拉的硬件水平值得认可,但我们仍在追赶中。真实世界数据与仿真数据在泛化性上存在差异。

Q10.王仲远:Agent的研究有哪些主要的待解决问题,包括物理世界和数字世界的Agent,有什么区别?

潘家怡:Anthropic最近发布了Claude新模型,其中包括一个基础功能“computer use”,即用语言模型直接控制电脑。这是技术发展的一个步骤,表明我们正在逐步推进相关技术。

无论是控制机器人还是电脑,目标都是完成任务,且在有人参与的世界中进行。可以构建认知信息的数据很多。但缺少动作数据,如机器人如何移动或电脑操作细节。

这导致验证任务成功比执行任务本身简单。询问语言模型任务是否成功相对容易,但让大模型执行任务则困难。

现有数据提供了关于世界的知识和路径规划能力,我们可以通过强化学习或模仿学习补充动作数据。将这些融合,可能会产生显著效果。

 

Q11.王仲远:请各位老师预测一下,在未来半年到一年时间里,哪些技术最有可能出现重大的关键时刻?哪些技术更有实际产业落地的可能性?

 

赵明国:未来半年到一年,我希望能看到一些不同的东西。比如倒一杯水,是运动加声音加触觉的复合作用。现在还没有关于这方面的工作。这些操作甚至和注意力机制有关系。

王鹏:技术发展和应用将并行推进,部分技术可能需要降维以适应实际落地。技术上,我们将看到端到端、交互感知和移动操作的进步,以及灵巧手在自由度、负载能力和成本效益上的提升。在应用中,可能会对技术进行简化,如将模块化感知和操作适应特定场景,或将灵巧手简化为更少的手指以满足特定需求。技术发展需快速迭代,并与应用场景紧密结合,根据实际问题确定所需技术。

王鹤:从学术上讲,我想给所有大模型的任务多做减法。给定一个 VLM,可以端到端地实现抓取等操作。智源、银河通用和北大一直在推动。我们相信在不远的时间里,我们将揭示这样的模型需要多大的数据,泛化性有多强,而不是让具身智能存在于视频和大家的幻想中。

顾捷:我最期待的是半年或者一年,甚至两到三年,实现真正意义上的视觉大模型跟机器人的结合。让大模型能直接生成动作,并且这种效果能够泛化。

冷晓琨:产业界期待具身智能和路径规划技术进入实际应用,期待泛化能力增强。虽然机器人通过强化学习学会了走路,但在精密控制和任务执行方面还有限制。未来,基于轨迹规划的强化学习将使机器人运动控制更精细。

在接下来的半年到一年内,产业界可能采用的技术仍将以分层控制为主,因为端到端控制难以实现。分层控制更节能高效,但需避免不合理分层导致的信息冗余和泛化性能不足。大脑应负责规划,而非关节控制和肌肉反馈。因此,未来应用可能仍以合理的分层控制为主。

潘家怡:我个人非常关注明年,利用一些后训练的方式,将现在有的视觉模型如何更好地跟机器人场景进行融合。

 

本文版权归智源社区所有

 

 

 

 

声明:本文版权归智源社区所有,公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。

浏览量:0
收藏