近日,来自卡内基梅隆大学、加州大学伯克利分校、Meta、英伟达、波士顿动力以及丰田研究所的 6 家顶尖机构的 7 位顶级位专家进行了一场“关于生成式人工智能(AI)与机器人”的顶级讨论。
讨论的话题覆盖了生成式 AI、人形机器人、家用机器人等等。讨论的角度在于全面、深入解析现有的机器人技术以及未来技术。讨论者发言的观点,贴近实际发人深省。例如>
“2023 年是生成式 AI 彻底改变机器人学的一年”; “生成式AI 对机器人技术的各个领域,从模拟到设计,都产生革命性的影响”; “简易的抓手比五指的机器人手更可靠、更经济”; “农业领域超越了传统的制造业和仓储业,为机器人技术提供了一个广阔的应用平台”......,参与讨论位专家分别是:卡耐基梅隆大学的Matthew Johnson-Roberson、Meta的Dhruv Batra、波士顿动力公司的Aaron Saunders、加州大学伯克利分校的Ken Goldberg、英伟达的Deepu Talla、丰田汽车先进AI研究所的Russ Tedrake、Max Bajracharya。
生成式 AI 与机器人技术中的未来
Matthew(CMU):通过生成新颖数据和解决方案,生成式 AI 将极大地提升机器人的能力。它不仅能使机器人更广泛地泛化任务处理能力,还能增强它们对新环境的适应性,并提升其自主学习与进化的能力。
Dhruv (Meta):生成式 AI 在具身 AI 和机器人研究中扮演两个独特角色>
1.数据/经验生成器:生成 2D 图像、视频、3D 场景或 4D(3D + 时间)等训练机器人所需的语料。鉴于现实世界中的机器人经验(数据)极为珍贵,生成式 AI可以被视作“学习型模拟器”。我坚信,没有模拟的训练和测试,机器人研究是无法大规模进行的。
2.自监督学习架构:生成机器人未来可能观察到的感官数据,与实际观测进行比较,作为一种无需标注的学习信号。更多细节可参见 Yann 发表的关于 AMI 的论文。
AMI论文:A Path Towards Autonomous Machine Intelligence Version 0.9.2, 2022-06-27,地址:https://openreview.net/pdf?id=BZ5a1r-kVsf,Aaron(波士顿动力):当前变革的速度让我们无法对未来做出精准预测。基础模型标志着机器学习模型创造方式的重大变革,不仅能够创建与机器人的对话界面,提升现有计算机视觉功能的质量,还可能开发出如视觉问题解答等新的能力。我们认为,这些更加可扩展的架构和训练策略最终可能超越语言和视觉,扩展到机器人的规划和控制领域。
Russ(丰田汽车先进AI研究所):生成式 AI 拥有给机器人技术带来革命性新功能的潜力。现在,我们不仅能够用自然语言与机器人交流,而且通过连接至互联网规模的语言和图像数据,机器人对世界的理解和推理能力也大幅增强。但目前还处于初级阶段,还需进一步研究:如何将图像和语言知识与机器人所需的物理智能有效结合,从而使机器人变得真正实用。
Ken(加州大学伯克利分校):2023 年是生成式 AI 彻底改变机器人学的一年。像 ChatGPT 这样的大语言模型让机器人与人类之间的自然语言交流成为可能。机器人学家还发现,大型的视觉-语言-动作模型可以被训练用来增强机器人的感知能力,并控制其手臂和腿部的动作。这种训练需要大量的数据,因此全球实验室现在正合作分享数据。虽然关于泛化能力的问题尚未完全解决,但这些模型带来的影响是深远的。
另一个激动人心的话题是“多模态模型”,它有两种含义>
1.结合不同输入模式的多模态:例如将视觉和语言结合起来。现在这已经扩展到包括触觉、深度感知以及机器人动作。
2.对相同输入状态允许不同响应的多模态:这在机器人技术中相当常见,例如用多种方式抓取同一个物体。标准的深度模型会将这些抓取动作“平均化”,这可能导致非常糟糕的抓取效果。
Deepu(英伟达):我们已经目睹了生成式 AI 如何提高生产力。显然,生成式AI 对机器人技术的各个领域,从模拟到设计,都将产生革命性的影响。
模拟:模型将通过构建场景、创建环境和生成资产来加速模拟开发,缩小 3D 技术艺术家和开发者之间的差距。生成式AI 生成的资产将被广泛应用于数据合成、机器人技能训练和软件测试。
多模态人工智能:基于 Transformer 的模型将提升机器人理解其周围世界的能力,使它们能在更多的环境中工作,并完成更复杂的任务。
机器人(重新)编程:机器人将具备更强大的能力来用简单的语言定义任务和功能,使它们变得更加通用和多用途。
设计:创新的机械设计将提升效率,例如在末端执行器的设计上。
对人形机器人的看法
加州大学伯克利分校的Ken Goldberg,Ken(加州大学伯克利分校):我对类人机器人和腿式机器人一直持保留态度,认为它们往往过于夸张并且效率不高。但在见识了波士顿动力、Agility 和 Unitree 最新的人形机器人和四足机器人之后,我改变了看法。特斯拉在大规模开发低成本电机和齿轮系统方面拥有卓越的工程技能。相比于轮式机器人,腿式机器人在家庭和工厂等环境中更有优势,它们能够跨越台阶、障碍物和地毯。虽然双臂机器人对许多任务来说至关重要,但简易的抓手比五指的机器人手更可靠、更经济。
Deepu(英伟达):设计自动化机器人本就充满挑战,要创建类人机器人更是难上加难。不同于大多数只需理解地面障碍物的自动移动机器人(AMR),类人机器人作为移动操作平台,需要利用多模态 AI 来深入理解它们周边的环境。这涉及到大量的传感器处理、高级控制技术以及技能执行。
生成式 AI 在构建基础模型方面取得的突破,正让类人机器人所需的技能更加广泛适用。同时,也看到模拟技术的进步,这些技术能够训练基于 AI 的控制系统和感知系统。
Matthew(CMU):人形的设计形态是一个极其复杂的工程与设计挑战。它对模仿人类动作和互动设定了高度复杂的执行器和控制系统标准。同时,它也在平衡和协调方面提出了独特的挑战。尽管存在这些困难,但人形机器人在多种社会和实用环境中具有极高的潜在通用性和直观可用性。
Max(丰田汽车先进AI研究所):机器人被广泛应用于人类环境中,这些环境通常是以人为本设计的。因此,这些机器人需要具备适应这些以人为中心的环境并在其中有效工作的能力。然而,适应人类环境并不强求机器人必须拥有类人形态,如两臂、五指、两腿和头部等。更为关键的是,机器人应设计得既紧凑又安全,并且能够执行与人类相似或相辅相成的任务,以实现与人类的协作和互补。
Dhruv (Meta):我持有乐观的看法。从根本上来说,人类的环境是围绕人的形态和行为模式设计的。因此,如果期望通用机器人在这些环境中有效地工作,它们的形态至少在一定程度上需要模仿人类。这不仅仅是模仿人的外观,机器人可能会配备有超出人类能力的传感器或更多的附肢,以适应和优化其在人类环境中的性能和功能。
Aaron(波士顿动力):类人形态并不是所有类型任务的理想选择。以Stretch为例,最初受到Atlas机器人移动箱子视频的启发,对开发一种专门的箱子搬运机器人产生了兴趣。但是,仅仅因为人类可以搬运箱子,并不意味着人形就是执行此类任务的最佳形态。因此,我们设计了Stretch,这款机器人专为搬运箱子而生,它在完成这一任务时的效率和效果远超人类。尽管如此,我们依然对追求多功能通用机器人技术抱有长远的兴趣,毕竟人形设计与我们的生活环境极为契合。
下一个机器人技术落地场景
Max(丰田汽车先进AI研究所):农业领域蕴含巨大的潜力和需求,但同时,许多农业任务因其户外执行和非结构化的环境特征,带来了极大的挑战。
Matthew(CMU):农业领域超越了传统的制造业和仓储业,为机器人技术提供了一个广阔的应用平台,这里面涉及到解决劳动力短缺、提升作业效率和推动可持续发展等多重挑战。同时,在运输和末端配送领域,机器人技术也被寄予厚望,它们有望极大提高效率、减少成本并提升整体服务质量。随着技术的不断进步和监管环境的逐步优化,预计这些领域将会加速采纳机器人技术,以应对各种挑战和需求。
Aaron(波士顿动力):在考虑如何将客户需求与前沿技术相结合时,制造业和物流业依然是关注的重点。随着视野的不断扩大,我预见我们将逐步进入到更加复杂和不确定的环境中。继制造业和物流业这些对自动化极为友好的领域广泛采用机器人技术之后,建筑业和医疗保健等行业可能会成为下一波机器人技术应用的热点。这些行业因其对大量劳动力及对高技能劳动力的强烈需求,在劳动力供应短缺的情况下,显得尤为具有吸引力。将机器人技术应用于这些位于高度结构化工业环境和完全非结构化消费市场之间的领域,可能成为实现更广泛应用的自然而然的下一步。
随着劳动力短缺和人口结构变化,对应的机器人技术机遇也在持续增长。这影响了从农业到最后一公里配送,再到零售等各行各业的机器人企业。
构建适用于各类自主机器人的3D虚拟世界是一项关键挑战,这对于模拟和测试系统是至关重要的。同时,生成式人工智能将为开发者快速构建逼真模拟环境提供支持。将AI技术集成进机器人技术将有助于提升在各种活跃的非传统“机器人友好”环境中的自动化水平。
Ken(加州大学伯克利分校):未来,制造业和仓库中的机器人数量将远超今日。自动驾驶出租车在旧金山等复杂的驾驶环境中取得的最新进展,的确令人瞩目。然而,对于其成本效益,我仍持谨慎观望态度。在机器人辅助手术领域,研究人员正在探索“增强灵活性”技术,通过这项技术,机器人能在执行缝合等低级辅助任务中增强外科手术技能。
真正的通用机器人还有多远?
Dhruv (Meta):预计通用人工智能的实现还需要三十年时间。目前,我们所处的阶段超出了任何有意义预测的范围。实际上,对于那些宣称“通用人工智能即将到来”的声音,我们应该保持一定的怀疑态度,并对此类过于乐观的观点持警惕心态。
Deepu(英伟达):我们持续见证机器人在智能化道路上的进步,并能够在特定环境中执行更多种类的任务。我们的目标是不断解决特定任务的问题,同时提高机器人在各个领域的应用性。然而,要达到真正全面自主的通用机器人,仍有漫长的路要走。
Matthew(CMU):能够在多种环境下执行广泛任务的通用机器人,目前看来仍然是一个遥远的梦想。这不仅需要在人工智能、机器学习、材料科学以及控制系统等众多领域取得突破,而且是一个逐渐演进的过程。机器人技术将从专注于特定任务逐渐演化,最终拥有更广泛的功能和通用性。
Russ(丰田汽车先进AI研究所):对于我们的机器人从现有的专用模式向更加通用型的转变,我持乐观态度。尽管难以预测具体需要多长时间,但灵活的自动化技术、多样化的高混合制造、农业机器人、前端服务机器人以及其他我们尚未预见的新兴领域,都将从不断增长的自主性和扩展能力中受益。
Ken(加州大学伯克利分校):我不认为我们在近期内就能看到真正的通用人工智能(AGI)或通用机器人的出现。据我所知,目前没有哪位机器人学家真正担心机器人会在短期内取代人类工作或主宰人类。
Aaron(波士顿动力):在通用机器人的实现之路上,我们正面临诸多挑战。虽然专用机器人已在工业自动化中成为常规配置,但真正多功能机器人的发展才刚刚起步。要成为真正的通用机器人,它们必须能够自主地在非结构化环境中导航,并能解决前所未有的问题。此外,这些进步需要建立在获得用户信任和满足其需求的基础上,同时还必须以有竞争力的价格提供相应的价值。然而,令人鼓舞的是,我们正见证这个领域的重要性日益增长,以及公众兴趣的显著提升。我们的孩子们从小便开始接触机器人技术,而新一代的毕业生们正致力于推动技术革新。如今,我们面对的为工业客户创造价值的挑战,正铺就着通向明天消费者市场机遇以及我们共同期待的通用机器人未来的道路。
家庭机器人(除了吸尘器之外)会在未来十年内蓬勃发展吗?
Matthew(CMU):真正通用的机器人,能够在多样化环境中执行广泛任务,可能尚处于遥远的未来。要达成这一目标,我们需要在人工智能、机器学习、材料科学以及控制系统等多个领域取得关键突破。机器人的演进,从执行专门的特定任务到拥有多功能乃至达到通用性,是一个渐进的演化过程。
Deepu(英伟达):未来,家庭将迎来更多实用的机器人,如个人助理、自动割草机和辅助老年人的机器人等。然而,家用机器人的普及主要受限于成本与价值的平衡——消费者愿意为这些机器人支付多少,以及它们能否提供等值的服务。例如,机器人吸尘器之所以流行,是因为它们具有较好的性价比。随着技术进步,机器人变得更加智能,拥有用户友好的界面是其被广泛采用的关键因素。相比于需要复杂编程的机器人,能够自主绘制环境地图和通过语音指令操作的机器人将更易被家庭用户接受。
而在家用机器人的下一波普及浪潮中,我们可能首先看到的是那些专注于户外活动的机器人,如自动草坪护理机器人。同时,个人/健康护理助手等其他类型的家用机器人虽展现出潜力,但要真正进入千家万户,它们还需要克服家庭环境中动态且非结构化的复杂挑战。
Max(丰田汽车先进AI研究所):家庭环境对于机器人来说构成了巨大的挑战,因为每个家庭都拥有其独特性,缺乏统一的结构化环境,同时消费者对价格极为敏感。尽管未来的发展难以精确预测,机器人技术正以惊人的速度不断进步。
Aaron(波士顿动力):在接下来的十年里,我们可能会看到更多专注于特定任务的家用机器人进入家庭,如Roomba这样的清洁机器人,我们将发现更多具有明确价值的应用场景。然而,真正能够满足广泛消费市场需求的多功能家用机器人普及还需时日。想象一下,在什么情况下你会愿意为一个机器人支付与汽车相当的价格?这可能会在机器人能够提供与当前交通工具相同的可靠性和价值时发生。
Ken(加州大学伯克利分校):我预计,未来十年中,我们将看到更多负担得起的家用机器人,它们能够协助我们进行日常整理,比如捡起地上的衣服、玩具和垃圾,并将其放置到指定位置。正如现代的吸尘器,尽管这些机器人可能偶尔会出错,但它们将为家庭提供的便利,尤其是对于父母和老年人,将大大超过它们的局限性。
Dhruv (Meta):尽管机器人技术发展迅速,但核心技术尚未达到使其在家庭环境中广泛应用所需的成熟度。
哪些机器人领域尚未得到足够的关注?
Aaron Saunders,波士顿动力公司:当前,人工智能及其为机器人技术等众多行业带来的变革潜力正在引发广泛关注。尽管人工智能在这些领域扮演着关键角色,希望开启长期静止不变的领域,但优秀的机器人产品并非仅仅由简单的二进制代码组成。为了让人工智能在物理世界中实现其功能,与环境互动,我们需要不断跟进计算技术、感知传感器、电源管理等所有构成机器人系统的关键技术的最新发展。汽车行业近期向电气化和高级驾驶辅助系统的转变正在迅速改造庞大的供应链,带来前所未有的机遇。显卡、计算机及越来越复杂的人工智能辅助消费电子产品的进步为整个行业注入了新的活力。这些深远且鲜为人知的技术变革是机器人技术中最令人兴奋的发展趋势之一,它使得许多创新型小公司能够借助业界巨头的支持,推出新颖且引人注目的产品。
Ken(加州大学伯克利分校):提及机器人运动规划,它是机器人学领域中最古老而深入的研究课题之一,主要关注如何控制电机关节以实现机器人工具的精确移动和避免障碍。虽然有些人可能认为这个问题已经被解决,但现实情况远非如此。机器人技术中的“奇点”问题是所有机器人手臂普遍面临的一个核心挑战,它与人们所想象的机器人技术的极限大不相同。机器人奇点是指在特定的空间位置,机器人意外停止并需要人工重置的情况。这是由于将预期的直线移动转化为六个机器人关节电机各自动作的复杂数学运算导致的。在某些特定的空间位置,这种转换可能变得不稳定,需要机器人进行重置。这个问题的复杂性和持续性表明了机器人运动规划领域仍然有巨大的研究和改进空间。
对于重复性的机器人动作,可以通过繁琐的手动微调来避免奇点,确保机器人的连贯性运动。一旦设定好,这些动作可以持续准确地重复执行。然而,在机器人运动需求多样化的新兴领域,比如码垛、抓取作业、订单处理和包裹排序等,奇点问题变得更加常见。这些奇点在不可预测的时刻打断机器人的操作,频繁发生,成为了众所周知的一个问题。为了解决这一挑战,我共同创立了Jacobi Robotics。我们采用高效算法,保证机器人避开奇点,显著提升了机器人的可靠性和生产效率。这一突破性进展对所有采用机器人技术的行业来说,都意味着质的飞跃,带来了前所未有的稳定性和效率。
Russ(丰田汽车先进AI研究所):当前,生成式人工智能以及硬件领域的显著进步和巨额投资频频成为话题。但在这些成就的背后,实际上是模拟技术领域一场静默的革命。就在几年前,大多数机器人学者还认为在模拟环境中训练或测试计算机视觉系统是不切实际的;现在,这已经成为了标准操作程序。尽管仍有一些研究者对完全在模拟中开发控制系统——例如灵巧手——并使其在现实世界中有效运作持保留意见,但越来越多的趋势和实践正显示出这一方向的发展潜力。Nvidia、Google DeepMind 和 TRI 等公司的大量投资正在推动这一变革,我们有理由相信模拟技术的未来将更加广阔,机器人技术的应用也将因此变得更加高效和精确。
Dhruv (Meta):现在我们已经能在真实的家庭环境中测试导航机器人,并且它们确实能够有效地运作!请注意,这些家庭导航机器人没有自动驾驶汽车在数百万英里道路上构建精确地图的奢侈条件。我们简单地将机器人置于一个新环境,并指导它寻找特定物品。
Deepu(英伟达):这突显了对平台方法的需求。许多机器人初创公司因为只专注于开发适用于特定任务或环境的解决方案而难以扩展。为了商业化实现规模化并具有可行性,开发出能广泛适用、快速学习新技能和适应新环境的通用机器人是至关重要的。机器人学家需要一个集成了工具和库的平台,以便训练和测试机器人AI,这个平台应当提供模拟能力,以训练模型、生成合成数据,并测试整个机器人软件堆栈。同时,它还应当能够在机器人上实时运行最新和新兴的生成式人工智能模型。未来成功的初创公司和机器人企业将专注于开发新的机器人技能和自动化任务,并充分利用全面的端到端开发平台。
Matthew(CMU):尽管机器人技术在某些特定细分市场和特定行业中取得了显著进步并且成功应用,这些成就往往被那些更加具有未来感或广泛适用性的机器人概念所遮蔽。在农业、医疗保健或特定工业应用等领域中,稳步取得的成功案例同样至关重要。它们代表了机器人技术在实际应用中的真正和具体进展,理应受到更广泛的关注和认可。这些进步不仅彰显了技术的实用价值,也为机器人技术的未来发展和广泛应用奠定了坚实的基础。