本文来自合作媒体 Mashdigi,INSIDE 经授权转载。
Google DeepMind 宣布推出全新针对机器人打造的 VLA (Vision-Language-Action) 人工智慧模型「RT-2」,藉此让机器人能更聪明地做出认知反应动作。
「RT-2」与先前在 2022 年底提出的「RT-1」类似,同样藉由模型架构让机器人可快速从经验中学习,并且与其他机器人分享。在架构上同样基於以自注意力机制设计的深度学习模型「Transformer」为基础,可透过网路传输的文字、图像进行训练,进而让机器人学习认知做出相应行为动作。
例如,传统作法如果要让机器人自动将空可乐罐丢进垃圾桶,过程中必须先让机器人知道什麽是可乐罐,以及如何判断可乐罐已经是空的,接着还必须训练机器人如何夹取空可乐罐,并且将其正确地放到垃圾桶,但机器人在实际运作时仍无法知道为什麽要将空可乐罐丢进垃圾桶。
因此在「RT-2」模型设计中,会透过大量源自网路的数据训练机器人,并且让他知道什麽是「垃圾」,进而节省原本需要逐步训练机器人辨识物体、判断物体状况,以及如何夹取、正确放进垃圾桶的繁琐步骤,直接让机器人知道物体在什麽状态下可视为「垃圾」,以及垃圾桶实际用途,即可加快机器人学习将所见「垃圾」丢进垃圾桶的行为。
相比「RT-1」模型下的执行效率为 32%,透过「RT-2」的执行效率则提高为 62%,几乎足足增加将近 2 倍效果,因此预期能接续透过「RT-2」模型训练机器人理解更多操作行为。
责任编辑:Jocelyn