Google 前研究员 Leon Jones (Transformer 论文作者之一)与 David Ha 於东京共同成立的 AI 新创公司「Sakana AI」,近期发表了研究成果,并释出两种模型。
Sakana AI 导入了「进化模型合并」(Evolutionary Model Merge)通用方法,使用进化的概念以有效率的找出不同模型相互结合的最佳方法,新创认为 Hugging Face 上目前超过 50 万个不同模型,是可以相互组合成具备新功能的新模型。
Sakana AI 的进化模型合并方法结合了两种不同的手法,分别为:在「资料流」层合并模型,找出不同模型各层的最佳组合,以形成新的模型;以及在「参数空间」(权重)中合并模型,也就是找出混合多个模型权重的方法。这两种手法可同时采用,融合出创新的模型。
为了测试这项方法论, Sakana AI 以自动化的方式演化出一款能进行数学推理的日语 7B LLM「EvoLLM-JP」,此模型基准测试的分数超越了过去具 70B 参数的日语 LLM,且有趣的是模型在数学之外的语言任务也能有良好表现。
另一款演化出的模型则是日语视觉语言模型(VLM)「EvoVLM-JP」,在处理日本文化内容相关的输入时表现很好,举例来说,当提供模型一张出现亮着绿灯的日本街道图,并提问「交通号志灯亮什麽灯?」,AI 会回覆「蓝色」而非绿色,因为日本会将绿灯称为「蓝灯」。
Photo Credit: 截自 Sakana AI
除了上述两种模型外, Sakana AI 也演化出第三种图像生成模型「EvoSDXL-JP」,前两者基础模型已在 Hugging Face 和 GitHub 上发布。
Sakana AI 用天择的概念,将模型以创新方式相互组合
Sakana AI 表示「我们相信受天择启发的演化演算法,将开启更有效合并(模型)的解方」。公司认为演化过程能找出传统方法或人类直觉错过的模型组合方式,进而产出新基础模型,且可在使用者指定的应用领域中有良好表现。
Sakana 考虑到从头开始训练大规模基础模型的成本正在上升中,而透过基础模型的开源生态系,结合现有模型来发展出具意想不到能力的新模型,有望成为政府机构和企业等大型组织更具成本效益发展 AI 的方式。
公司在宣布创立时就曾分享其创立理念,AI 的未来不会由单一个需要巨大能源来训练、运作和维护的 AI 系统,而是由大量各具自己专长的小型 AI 所组成和互动,来满足某个利基市场。
核稿编辑:Chris
快加入 INSIDE Google News 按下追踪,给你最新、最 IN 的科技新闻!