微软新模型 LAM:AI 在 Word 中操作的新突破

发布时间:2025-01-03 来源:时事 作者:通悟AI

微软的研究团队宛如探索未知领域的先锋,于近期推出了一款名为 “大型行动模型”(Large Action Model,简称 LAM)的人工智能技术,这一成果宛如一颗璀璨的新星在 AI 的星空中闪耀,标志着 AI 的发展开启了新的篇章。


与传统的语言模型如 GPT - 4o 相比,LAM 就像一个拥有超能力的智能助手,它能够自主操作 Windows 程序,这一能力使得 AI 不再仅仅局限于对话或者提供建议,而是真正地踏入了能够执行任务的新领域。


LAM 的优势如同多面的宝石,它能够理解用户输入的文字、语音和图像等各种形式的信息,然后像一位智慧的军师一样将这些请求转化为详细的步骤计划。而且,它还具备随机应变的能力,能根据实时情况调整自己的行动策略。


构建 LAM 的过程如同精心打造一件艺术品,主要分为四个步骤。首先,模型学习将任务分解为逻辑步骤,这就像是把一个大的拼图先分成各个小部分;接着,借助更先进的 AI 系统(如 GPT - 4o)学习如何将这些计划转化为具体行动,就像给这些小拼图块找到对应的位置;然后,LAM 会像一个勇敢的探险家一样独立探索新的解决方案,甚至解决其他 AI 系统无法应对的问题;最后,通过奖励机制进行微调训练,就像是给这个艺术品最后的润色。


在实验中,研究团队以 Mistral - 7B 为基础构建了一个 LAM 模型,并将其置于 Word 测试环境中进行测试。结果令人惊喜,该模型成功完成任务的概率达到了 71%,就像一位优秀的运动员在赛场上取得了优异的成绩。相比之下,GPT - 4o 在无视觉信息的情况下成功率仅为 63%。不仅如此,LAM 在任务执行速度上也表现得如同闪电般迅速,每个任务仅需 30 秒,而 GPT - 4o 则需要 86 秒。虽然 GPT - 4o 在处理视觉信息时成功率提高至 75.5%,但总体来看,LAM 在速度和效果上都像是高高飞翔的雄鹰,具有显著的优势。


在构建训练数据方面,研究团队的做法犹如勤劳的蜜蜂采集花蜜。最初收集了 29,000 对任务和计划的示例,这些数据来源广泛,来自微软文档、wikiHow 文章和必应搜索。之后,他们巧妙地利用 GPT - 4o 将简单任务转化为复杂任务,从而将数据集扩展到 76,000 对,增加了 150%,就像给这个模型注入了更强大的能量。最终,约 2,000 个成功的行动序列被纳入到最终的训练集中。


尽管 LAM 如同初升的朝阳充满潜力,但研究团队仍然面临着一些挑战,如 AI 行动可能出错就像航行中的船只可能遭遇暗礁、监管的相关问题,以及在不同应用中扩展和适应的技术限制。不过,研究人员仍然坚信,LAM 代表了 AI 发展的一次重要转变,它就像黎明的曙光,预示着人工智能助手将能更积极地协助人类完成实际任务。