开云-AI 大模型迈向多模态,助力具身智能与机器人实现创新

[导读]你听过莫拉维克悖论 (Moravec s paradox) 吗?该悖论指出,对人工智能 (AI) 系统而言,高级推理只需很是少的计较能力,而实现人类习觉得常的感知活动技术却需要花费庞大的计较资本。本色上,与人类本能可以完成的根基感官使命比拟,复杂的逻辑使命对 AI 而言加倍轻易。这一悖论凸显了现阶段的 AI 与人类认知能力之间的差别。 你听过莫拉维克悖论 (Moravec's paradox) 吗?该悖论指出,对人工智能 (AI) 系统而言,高级推理只需很是少的计较能力,而实现人类习觉得常的感知活动技术却需要花费庞大的计较资本。本色上,与人类本能可以完成的根基感官使命比拟,复杂的逻辑使命对 AI 而言加倍轻易。这一悖论凸显了现阶段的 AI 与人类认知能力之间的差别。 人原本就是多模态的。我们每一个人就像一个智能终端,凡是需要去黉舍上课接管学识陶冶(练习),但练习与进修的目标和成果是我们有能力自立工作和糊口,而不需要老是依靠外部的指令和节制。 我们经由过程视觉、说话、声音、触觉、味觉和嗅觉等多种感官模式来领会四周的世界,进而审时度势,进行阐发、推理、定夺并采纳步履。 颠末多年的传感器融会和 AI 演进,机械人现阶段根基上都配备有多模态传感器。跟着我们为机械人等边沿装备带来更多的计较能力,这些装备正变得越发智能,它们可以或许感知四周情况,理解并以天然说话进行沟通,经由过程数字传感界面取得触觉,和经由过程加快计、陀螺仪与磁力计等的组合,来感知机械人的比较、角速度,乃至机械人四周的磁场。 迈入机械人和机械认知的新时期 在 Transformer 和年夜说话模子 (LLM) 呈现之前,要在 AI 中实现多模态,凡是需要用到多个负责分歧类型数据(文本、图象、音频)的零丁模子,并经由过程复杂的进程对分歧模态进行集成。 而在 Transformer 模子和 LLM 呈现后,多模态变得加倍集成化,使得单个模子可以同时处置和理解多种数据类型,从而发生对情况综合感知能力更壮大的 AI 系统。这一改变年夜年夜提高了多模态 AI 利用的效力和有用性。 固然 GPT-3 等 LLM 首要以文本为根本,但业界已朝着多模态获得了快速进展。从 OpenAI 的 CLIP 和 DALL·E,到此刻的 Sora 和 GPT-4o,都是向多模态和更天然的人机交互迈进的模子典范。例如,CLIP 可理解与天然说话配对的图象,从而在视觉和文本信息之间架起桥梁;DALL·E 旨在按照文本描写生成图象。我们看到 Google Gemini 模子也履历了近似的演进。 2024 年,多模态演进加快成长。本年二月,OpenAI 发布了 Sora,它可以按照文本描写生成传神或富有想象力的视频。细心想一想,这可觉得构建通用世界摹拟器供给一条很有前景的道路,或成为练习机械人的主要东西。三个月后,GPT-4o 显著提高了人机交互的机能,而且可以或许在音频、视觉和文本之间及时推理。综合操纵文本、视觉和音频信息来端到端地练习一个新模子,消弭从输入模态到文本,再从文本到输出模态的两次模态转换,进而年夜幅晋升机能。 在本年二月的统一周,谷歌发布了 Gemini 1.5,将上下文长度年夜幅扩大至 100 万个词元 (Token)。这意味着 1.5 Pro 可以一次性处置年夜量信息,包罗一小时的视频、11 小时的音频、包括跨越三万多行代码或 70 万个单词的代码库。Gemini 1.5 基在谷歌对 Transformer 和夹杂专家架构 (MoE) 的领先研究而构建,并对可在边沿侧摆设的 2B 和 7B 模子进行了开源。在蒲月进行的 Google I/O 年夜会上,除将上下文长度增添一倍,并发布一系列生成式 AI 东西和利用,谷歌还切磋了 Project Astra 的将来愿景,这是一款通用的 AI 助手,可以处置多模态信息,理解用户所处的上下文,并在对话中很是天然地与人交互。 作为开源 LLM Llama 背后的公司,Meta 也插手了通用人工智能 (AGI) 的赛道。 这类真实的多模态性年夜年夜提高了机械智能程度,将为很多行业带来新的范式。 例如,机械人的用处曾很是单一,它们具有一些传感器和活动能力,但一般来讲,它们没有“年夜脑”来进修新事物,没法顺应非布局化和生疏情况。 多模态 LLM 有望改变机械人的阐发、推理和进修能力,使机械人从专用转向通用。PC、办事器和智妙手机都是通用计较平台中的佼佼者,它们可以运行很多分歧种类的软件利用来实现丰硕多彩的功能。通用化将有助在扩年夜范围,发生范围化的经济效应,价钱也能跟着范围扩年夜而年夜幅下降,进而被更多范畴采取,从而构成一个良性轮回。 Elon Musk 很早就留意到了通用手艺的优势,特斯拉的机械人从 2022 年的 Bumblebee 成长到 2023 年三月公布的 Optimus Gen 1 和 2023 年年末的 Gen 2,其通用型和进修能力不竭提高。在曩昔的 6 至 12 个月里,我们见证了机械人和人形机械人范畴所获得的一系列冲破。 下一代机械人和具身智能背后的新手艺 无庸置疑的是我们在具身智能到达量产方面还良多工作要做。我们需要更简便的设计、更长的运行时候,和速度更快、功能更壮大的边沿计较平台来处置和融会传感器数据信息,从而做出和时决议计划和节制步履。 并且我们正朝着缔造人形机械人的标的目的成长,人类文明数千年,发生出无处不在的专为人类设计的情况,而人形机械人系统因为形体与人们近似,有望可以或许在人类保存的情况中驾轻就熟地与人类和情况互动并履行所需的操作。这些系统将很是合适处置脏污、危险和死板的工作,例如患者护理和康复、酒店业的办事工作、教育范畴的教具或学伴,和进行灾害响应和有害物资处置等危险使命。此类利用操纵人形机械人类人的属性来增进人机天然交互,在以报酬中间的空间中步履,并履行传统机械人凡是难以完成的使命。 很多 AI 和机械人企业环绕若何练习机械人在非布局化的新情况中更好地进行推理和计划,睁开了新的研究与协作。作为机械人的新“年夜脑”,预先颠末年夜量数据练习的模子具有超卓的泛化能力,使得机械人能做到见责不怪,更周全地舆解情况,按照感官反馈调剂动作和步履,在各类动态情况中优化机能。 举一个有趣的例子,Boston Dynamics 的机械狗 Spot 可以在博物馆里当导游。Spot 可以或许与参不雅者互动,向他们介绍各类展品,并回覆他们的问题。这可能有点难以置信,但在该用例中,比起确保事实准确,Spot 的文娱性、互动性和细腻奥妙的表演加倍主要。 Robotics Transformer:机械人的新年夜脑 Robotics Transformer (RT) 正在快速成长,它可以将多模态输入直接转化为步履编码。在履行曾见过的使命时,谷歌 DeepMind 的 RT-2 较上一代的 RT-1 表示一样超卓,成功率接近 100%。可是,利用 PaLM-E(面向机械人的具身多模态说话模子)和 PaLI-X(年夜范围多说话视觉和说话模子,并不是专为机械人设计)练习后,RT-2 具有更超卓的泛化能力,在不曾见过的使命中的表示优在 RT-1。 微软推出了年夜说话和视觉助手 LLaVA。LLaVA 最初是为基在文本的使命设计的,它操纵 GPT-4 的壮大功能建立了多模态指令遵守数据的新范式,将文本和视觉组件无缝集成,这对机械人使命很是有效。LLaVA 一经推出,就创下了多模态聊天和科学问答使命的新记载,已超越人类平均能力。 正如斯条件到的,特斯拉进甲士形机械人和 AI 通用机械人范畴的意义重年夜,不但由于它是为实现范围化和量产而设计的,并且由于特斯拉为汽车设计的 Autopilot 的壮大完全主动驾驶 (FSD) 手艺根本可用在机械人。特斯拉也具有智能制造用例,可以将 Optimus 利用在其新能源汽车的出产进程。 Arm 是将来机械人手艺的基石 Arm 认为机械人脑,包罗“年夜脑”和“小脑”,应当是异构 AI 计较系统,以供给超卓的机能、及时响应和高能效。 机械人手艺触及的使命规模普遍,包罗根基的计较(好比向机电发送和领受旌旗灯号)、进步前辈的数据处置(好比图象和传感器数据解读),和运行前文提到的多模态 LLM。CPU 很是合适履行通用使命,而 AI 加快器和 GPU 可以更高效地处置并行处置使命,如机械进修 (ML) 和图形处置。还可以集成图象旌旗灯号处置器和视频编解码器等额外加快器,从而加强机械人的视觉能力和存储/传输效力。另外,CPU 还应当具有及时响应能力,而且需要可以或许运行 Linux 和 ROS 软件包等操作系统。 当扩大到机械人软件仓库时,操作系统层可能还需要一个可以或许靠得住处置时候要害型使命的及时操作系统 (RTOS),和针对机械人定制的 Linux 刊行版,如 ROS,它可以供给专为异构计较集群设计的办事。我们相信,SystemReady 和 PSA Certified 等由 Arm 倡议的尺度和认证打算将帮忙扩年夜机械人软件的开辟范围。SystemReady 旨在确保尺度的 Rich OS 刊行版可以或许在各类基在 Arm 架构的系统级芯片 (SoC) 上运行,而 PSA Certified 有助在简化平安实现方案,以知足区域平安和监管律例对互联装备的要求。 年夜型多模态模子和生成式 AI 的前进预示着 AI 机械人和人形机械人的成长进入了新纪元。在这个新时期,要使机械人手艺成为主流,除 AI 计较和生态系统,能效、平安性和功能平安必不成少。Arm 处置器已普遍利用在机械人范畴,我们等候与生态系统紧密亲密合作,使 Arm 成为将来 AI 机械人的基石。

欲知详情,请下载word文档 下载文档

北京2024年8月27日 /美通社/ -- 在8月23日举行的2024年长三角生态绿色一体化成长示范区结合招商会上,软通动力信息手艺(团体)股分有限公司(以下简称 软通动力 )与长三角投资(上海)有限...

要害字: BSP 信息手艺

上海2024年8月26日 /美通社/ -- 本日,高端全合成润滑油品牌美孚1号联袂品牌体验官周冠宇,开启全新路程,助力泛博车主经由过程驾驶去摸索更广漠的世界。在全新发布的品牌视频中,周冠宇和分歧布景的消费者表达了对驾驶的酷爱...

要害字: BSP 汽车制造

上一篇:开云-iQOO 13首发电竞芯片Q2:行业唯一支持2K 下一篇:开云-黄仁勋承认Blackwell GPU存在重大缺陷!已完美解决