None

AI 也要天择?Google Transformer 作者的新创 Sakana AI「演化」出三款模型

Google 前研究员 Leon Jones (Transformer 论文作者之一)与 David Ha 於东京共同成立的 AI 新创公司「Sakana AI」,近期发表了研究成果,并释出两种模型。

Sakana AI 导入了「进化模型合并」(Evolutionary Model Merge)通用方法,使用进化的概念以有效率的找出不同模型相互结合的最佳方法,新创认为 Hugging Face 上目前超过 50 万个不同模型,是可以相互组合成具备新功能的新模型。

 Sakana AI 的进化模型合并方法结合了两种不同的手法,分别为:在「资料流」层合并模型,找出不同模型各层的最佳组合,以形成新的模型;以及在「参数空间」(权重)中合并模型,也就是找出混合多个模型权重的方法。这两种手法可同时采用,融合出创新的模型。

为了测试这项方法论, Sakana AI 以自动化的方式演化出一款能进行数学推理的日语 7B LLM「EvoLLM-JP」,此模型基准测试的分数超越了过去具 70B 参数的日语 LLM,且有趣的是模型在数学之外的语言任务也能有良好表现。

另一款演化出的模型则是日语视觉语言模型(VLM)「EvoVLM-JP」,在处理日本文化内容相关的输入时表现很好,举例来说,当提供模型一张出现亮着绿灯的日本街道图,并提问「交通号志灯亮什麽灯?」,AI 会回覆「蓝色」而非绿色,因为日本会将绿灯称为「蓝灯」。

Photo Credit: 截自 Sakana AI

除了上述两种模型外, Sakana AI 也演化出第三种图像生成模型「EvoSDXL-JP」,前两者基础模型已在  Hugging Face 和 GitHub 上发布。

Sakana AI 用天择的概念,将模型以创新方式相互组合

Sakana AI 表示「我们相信受天择启发的演化演算法,将开启更有效合并(模型)的解方」。公司认为演化过程能找出传统方法或人类直觉错过的模型组合方式,进而产出新基础模型,且可在使用者指定的应用领域中有良好表现。

Sakana 考虑到从头开始训练大规模基础模型的成本正在上升中,而透过基础模型的开源生态系,结合现有模型来发展出具意想不到能力的新模型,有望成为政府机构和企业等大型组织更具成本效益发展 AI 的方式。

公司在宣布创立时就曾分享其创立理念,AI 的未来不会由单一个需要巨大能源来训练、运作和维护的 AI 系统,而是由大量各具自己专长的小型 AI 所组成和互动,来满足某个利基市场。

核稿编辑:Chris

快加入 INSIDE Google News 按下追踪,给你最新、最 IN 的科技新闻!

Jocelyn

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x