焦点滚动:机器人懂人话 谷歌新AI语言加强互动
【资料图】
谷歌的母公司Alphabet正在将其最雄心勃勃的两个研究项目--机器人技术和人工智能语言理解--汇集在一起,试图制造一个能够理解自然语言指令的 "辅助机器人"。
自2019年以来,Alphabet一直在开发能够执行简单任务的机器人,如取饮料和清洁表面。这个 "日常机器人 "项目仍处于起步阶段--机器人的速度很慢,而且犹豫不决--但现在这些机器人得到了升级:在谷歌大型语言模型(LLM)PaLM的帮助下,语言理解能力得到提高。
大多数机器人只对简短的指令做出反应,如 "给我一瓶水"。但是像GPT-3和谷歌的MuM这样的LLM能够更好地解析更多斜线命令背后的意图。在谷歌的例子中,你可能会告诉其中一个日常机器人原型 "我的饮料洒了,你能帮忙吗?" 机器人通过一个内部的可能行动列表过滤这个指令,并将其解释为 "从厨房给我拿海绵"。
是的,对于一个 "智能 "机器人来说,这是个很低的标准,但这绝对是一个进步 真正聪明的是,如果这个机器人看到你打翻了饮料,听到你喊 "啊,哦,我的上帝,我的愚蠢的饮料",然后帮你解决。
谷歌将所产生的系统命名为PaLM-SayCan,这个名字体现了该模型如何将LLM的语言理解能力("Say")与机器人的 "承受力基础"(即 "Can"--通过可能的行动过滤指令)相结合。
谷歌表示,通过将PaLM-SayCan整合到其机器人中,这些机器人能够在84%的时间内对101个用户指令做出正确的反应,并在74%的时间内成功执行这些指令。这是一个可靠的命中率,但这些数字应该谨慎对待。我们没有101条指令的完整清单,所以不清楚这些指令的限制程度。他们真的捕捉到了我们期望一个真正的家庭帮手机器人所能理解的全部语言的广度和复杂性吗?这是不可能的。
这是因为这是谷歌和其他从事家庭机器人工作的人面临的巨大挑战:现实生活是不折不扣的混乱。我们想要问一个真正的家用机器人的复杂命令实在是太多了,从 "清理我刚刚洒在沙发下面的麦片 "到 "炒洋葱做意大利面酱"(这两个命令都包含大量的隐含知识,从如何清理麦片,到冰箱里的洋葱在哪里以及如何准备它们,等等)。
随着人工智能在视觉和导航等技能方面的改进,我们现在看到新型的机器人进入市场,但这些机器人在能做的事情方面仍然受到有意的限制。例如,看看拉布拉多系统公司的Retriever机器人。它基本上是一个带轮子的架子,可以将物品从房子的一个地方移到另一个地方。这个简单的概念当然有很大的潜力--Retriever机器人对行动不便的人来说是非常有用的--但我们离我们梦想中的无所不能的机器人管家还有很长的路要走。