您现在的位置:首页 > 新闻中心 > 公司新闻
公司新闻

杏彩体育平台登录具身智能移动操作机器人发展与研究

浏览次数:20 日期:2024-05-19 04:06:39 来源:杏彩官网注册地址 作者:杏彩体育官网登录入口

  与产业变革中的战略性技术,是当前世界各国重点竞争的前沿高地之一;移动操作机器人系统因其优秀的运动、规划、执行能力成为具身技术首选的载体;基于具身智能的移动操作机器人系统作为实现跨领域、多场景、多功能的自主具身智能平台,将成为引领未来新一代

  中国工程院院刊《中国工程科学》2024年第1期刊发清华大学张涛教授研究团队的《基于具身智能的移动操作机器人系统发展研究》一文。文章从基于具身智能的移动操作机器人系统发展的需求出发,总结基于具身智能的移动操作机器人系统的发展现状,分析该领域发展面临的问题和挑战,提出共性关键技术和对策建议,以期助力具身智能发展浪潮下我国移动操作机器人领域的长足发展。

  人工智能(AI)是引领新一轮科技与产业变革的战略性技术之一,对助力我国现代化产业体系建设、推动战略性新兴产业融合集群发展、赋能各行各业发展具有重要意义。随着通用AI技术的加速突破,技术基础扎实且可多场景适用的移动操作机器人作为具身智能的优质载体,在全球科技界与产业界掀起了新一轮的研究浪潮,成为新一轮科技中的前沿技术高地之一。

  基于具身智能的移动操作机器人系统(简称“具身智能移动操作机器人”)旨在构建具备自主环境感知、充分理解认知、流畅人机交互、可靠智能决策与自然运动操作规划的机器人系统,依托跨领域、多场景、多功能的自主具身智能平台,为传统移动操作机器人升级赋能,引领未来移动操作机器人的行业发展。在具备可感知、理解与决策的类脑结构后,移动操作机器人能够自主理解并完类下达的高级指令,实现真正的通用智能。

  与传统移动机器人相比,具身智能移动操作机器人能够完成一些通常需要人类智慧才能完成的复杂工作,随着其技术不断发展与成熟,必将给人类社会带来性的变革。具身智能移动操作机器人在服务、餐饮、医疗、智能家居、无人配送等民用领域,智能工厂、智能制造等工业领域以及单兵作战等军事领域,都拥有广阔的应用前景。目前,国内外对于具身智能移动操作机器人的研发大多仍处于实验室测试阶段,针对特定场景、特定任务的具身智能移动操作机器人虽然有了较大的发展,但整体技术并不成熟,尚未实现产业化与商品化。学术界对于移动操作机器人的研究主要围绕环境感知、运动控制、路径规划、车臂协同等方面展开,对具身智能技术和移动操作机器人技术的研究处于平行发展阶段。文章从具身智能移动操作机器人发展的需求出发,厘清具身智能移动操作机器人的发展现状,分析面临的挑战,总结相关关键技术,并提出发展建议,以期为具身智能移动操作机器人研究提供参考。

  移动操作机器人泛指具备移动与抓取操作能力的机器人,基本结构由移动基座、机械臂、操作末端共同组成,进而发展出类人结构。移动操作机器人拥有形态优势和移动操作能力,是最接近人类形态的机器人构型,是具身智能最理想的硬件载体。移动操作机器人技术发展历史悠久,经过长足发展,已形成相对成熟的技术体系。具身智能作为通用AI技术的重要实现手段,近年来正在不断取得全新突破,具身智能移动操作机器人呈现出广阔的应用前景。

  移动操作机器人需要在未知环境中完成感知、导航与控制等任务,主要由移动底盘、机械臂和操作末端三部分组成,核心技术包括感知、导航与控制技术,灵巧操作控制技术等。移动操作机器人技术的发展使机器人能够更精确、快速、稳定地利用多模态数据来感知周围环境,进行更高效的运动控制和路径规划。随着深度学习技术的发展和应用,基于深度学习和强化学习的机器人控制技术、多模态感知技术将得到进一步发展,推动移动操作机器人的感知、规划、控制能力进一步提升。

  移动操作机器人在感知、导航与控制技术方面的发展现状如下。① 在感知技术层面,移动操作机器人依靠传感器来感知外部的物理世界,通过装配相机、雷达、、红外等感知传感器以及惯性测量单元、编码器等传感器来确定自身位置姿态和运动状态。通过多传感器融合技术,移动机器人可以利用多源感知数据来提高自身感知的精度和鲁棒性,实现对环境的高精度实时感知。此外,感知层还需要完成对未知环境的建图任务。定位与建图技术用于解决移动机器人在真实物理世界中的环境重建和自身定位问题,是移动机器人的关键技术之一。目前,定位与建图技术研究通常采用激光测距仪、计算机视觉两类方法:前者构建的点云地图精度较高,算法相对简单,在光照不足、明暗变化大的环境下鲁棒性强,但是难以展现较好的环境细节信息;后者得到的视觉图像包含更加丰富的环境特征信息,使机器人能够在更大范围内完成任务,但是算法设计复杂,对光照等条件要求比较苛刻。② 在导航技术层面,移动操作机器人根据目标点和感知地图,实时生成离散航路点序列或连续期望轨迹的算法。移动操作机器人导航技术主要包括全局路径规划、局部避碰与避障等技术。移动操作机器人导航任务主要包括以地图的形式生成世界模型,计算从起始位置到目标位置的无碰撞轨迹,沿着计算的轨迹移动,避免与障碍物碰撞。③ 在控制技术层面,移动操作机器人不仅需要具备移动机器人的感知、定位与导航运动能力,还需要具备精确控制移动机器人抵达预期航路点的能力。目前,机器人控制技术相对成熟,通过对机器人建立运动学和动力学模型,采用基于全局线性化的控制、基于近似线性化的控制、基于李雅普诺夫理论的控制等方法,实现较为稳定的控制。经典的机器人控制策略有计算力矩控制、鲁棒控制、滑模控制、自适应控制、神经网络控制、模糊逻辑控制、自抗扰控制与柔性控制。

  在灵巧操作控制技术方面,传统机器人的操作末端通常为夹爪或夹手,缺乏机动性与灵巧性;移动操作机器人将具备更加灵巧通用的操作末端,如类手结构、柔顺捕获结构等,以提升末端抓取的通用性,拥有任意物体抓取、工具使用、柔性物体操作等高级技能,进而可以在工业环境中完成装配、焊接、搬运等任务以及在家庭场景中完成厨具使用、家庭清洁等工作。除此之外,计算机视觉技术可以帮助移动操作机器人与周围环境进行互动,增强其智能化和自主性,使其像人一样感知、理解和响应环境,对提升机器人视觉跟踪、物体识别、移动抓取、人机交互等能力都有重要意义。机械臂控制技术和灵巧操作技术助力移动操作机器人完成高精度、高性能的复杂任务。移动操作机器人可以通过相机等视觉传感器、压敏阵列等触觉提升智能操作、灵巧操作和交互操作能力。受限于硬件资源与工作场景,移动操作机器人主要通过图像数据强化其操作能力,利用计算机视觉技术输入相机等传感器的图像像素并转换为环境中物体的类别、位置、姿态、速度以及人类的面部表情、手势等具体信息,运用计算机算法和机器学习算法对数字图像进行分析、处理、识别和理解,进而实现智能化应用。

  得益于其感知、移动、抓取和灵巧操作等能力的提升,移动操作机器人在民用和军用等领域均拥有广阔的应用前景和应用价值。① 在民用领域,移动操作机器人在智慧医疗、智能工厂、交通物流、实验室助手、家居服务、餐饮服务、住宿服务等行业涌现出多种落地产品,为智慧社会构建提供了强大推力。在医疗方面,移动操作机器人可以完成药品和工具递送、病人看护、辅助诊疗等任务。在制造业中,移动操作机器人可以实现传统机械臂无法实现的功能,提升工业生产的自主化水平。在实验室助手方面,移动操作机器人可以帮助实验人员开展化学实验工作,如中国科学技术大学集成移动机器人、化学工作站、智能操作系统、科学数据库,研制出数据智能驱动的全流程机器“化学家”。在家居服务方面,移动操作机器人可以完成物品递送、开门关门、垃圾清理等便捷居民生活的任务。在餐饮和住宿服务方面,智能移动机器人可以辅助完成上餐、餐具回收、物品递送等任务。② 在军用领域,移动操作机器人可以辅助作战部队开展侦察、跨越险阻、弹药运输、后勤保障等任务,提高作战效率和丰富作战手段。具备一定或较高智能的移动操作机器人的广泛应用,为具身智能移动操作机器人产业化提供了需求与应用场景。

  具身智能概念在1950年首次被提出,指能够与环境交互感知,具备自主规划、决策、行动、执行能力的机器人或虚拟环境中的仿真人,是AI的终级形态。具身智能具备自主感知、认知、理解、推理、行动等类人或高于人类的能力,具备由“大脑”“小脑”“脑干”组成的完整人脑结构以及可实现行动的机器身体,如图1所示。其中,“大脑”部分负责对场景进行认知、理解、推断、分析,“小脑”部分开展柔性控制、协同控制、交互控制、灵巧操作等技能学习,“脑干”部分则承担能源调配、环境感知、信号分析与计算等工作。随着时代的发展和科技的进步,具身智能的概念被不断迭代和更新,尚未形成定论,但通识的理解是具有身体的智能技术,即为智能技术赋予行动能力。具身智能的实现依赖于AI领域的计算机视觉技术、多模态感知融合技术、自然语言处理技术、因果推断技术、移动导航与规划技术等。区别于离线智能,具身智能要求机器人具备高度自主化且可进行感知、理解与决策的“脑”,具有稳定、安全、运动自然的机器人“身体”。此外,机器人还要具备在执行人类高级指令及与环境交互过程中进行在线学习、更新“脑”和“身体”的能力。

  2022年,OpenAI公司研发的大语言模型ChatGPT被视为通用AI技术领域取得的重要突破,进而使得具身智能被重新提起。大规模网络模型基于海量优质数据训练后,在个性化应答、机器翻译、语言理解、图像理解等方面的性能获得显著提升,应用价值大幅提高。以大模型为内核,移动操作机器人可以具备思考、理解、认知的能力。目前,全球已出现多个成功商品化的大模型,国内包括百度公司研发的文心一言、阿里巴巴公司研发的通义千问等;国外包括OpenAI公司最新研发的GPT-4和图像生成大模型DALL.E 3、谷歌公司研发的Gemini、微软公司研发的数学推理大模型WizardMath、谷歌与柏林工业大学共同推出的视觉语言模型PaLM-E等。这些大模型在常识推理、代码完善、知识迁移等领域展现出较强的应用能力。在语言识别与理解方面,基于大模型的聊天机器人可以和人自由交流,完成资料检索、总结归纳、日程安排、出行规划、行为规划等任务,具备强大的文本认知与理解能力;针对图像信息,大模型可以准确识别其中包含的各类物品,实现像素级细粒度分割,并具备初步的空间识别能力;在点云信息处理方面,大模型能够准确分割空间中的点云区域,根据点云实现零训练的分类任务;在数学推理、代码生成方面,部分专用大模型已经可以完成定理证明、数学推导与计算,并可以自主编程实现相应任务。目前,部分综合大模型已经具备较强的文本、图像、点云的信息关联能力,能够根据文本信息准确地识别、分割或生成所需的图像、点云模型,并且支持将真实世界的连续传感器模态直接结合到语言模型中,从而建立单词文本和感知之间的联系。在近期的研究中,综合大模型已经可以对人类高级命令生成分步指令。例如,由人类给出整理房间的指令,大模型可以根据当前的图片信息判断各类物品应摆放于何处,进而生成分布执行指令完成该任务。

  与传统移动操作机器人相比,具身智能移动操作机器人最大的进步在于其具备智慧大脑,能够实现对世界的认知理解进而进行智能决策。具身智能发展的核心是机器人“大脑”能力的进步。当前的具身智能发展主要集中在对移动操作机器人“大脑”层面的研究。随着大模型技术尤其是多模态综合大模型技术的高速发展,具身智能移动操作机器人将具备更强大的思考、感知、认知、决策能力,实现更加通用自主的机器智能,利用多模态数据进行自我学习、自我适应、自我优化,自主筛选出最优的行动策略与最佳的解决方案以执行任务。

  随着机器人技术和AI技术的快速发展,移动操作机器人实物系统不断落地,出现了多个具备感知、导航、操作能力的移动操作机器人系。


杏彩体育平台登录 上一篇:扬州市俊平试验机械有限公司 下一篇:搭建校企合作平台 推动产教融合发展