随着 Google 即将发布多模态(multimodal)语言模型挑战 OpenAI 的 GPT-4,OpenAI 也正摩拳擦掌准备迎击,据报导,OpenAI 正准备推出 GPT-4 的图像理解能力,这是曾经在 GPT-4 发布时引发轩然大波的能力——可以仅凭一张手绘网页图,就能产生整个网页的程式码。目前除了少部分测试用户之外,一般 GPT-4 用户无法使用这项能力。
现在 GPT-4 最大竞争对手之一,就是秋季即将发表的 Google AI 模型 Gemini。为了对抗 Gemini,OpenAI 可能会以「GPT-Vision」这个名字,正式向公众推出 GPT-4 图像理解能力。在 OpenAI 刚发布的 DALL-E 3 中整合了 ChatGPT,让使用者可以用聊天机器人来产生提示词,而不用亲自输入复杂详细的提示。GPT-Vision 也有可能与 DALL-E 3 相互整合。
GPT-4 这些新功能可能会在 OpenAI 将於 11 月首次举办的开发者大会上公布。先前,OpenAI CEO Sam Altman 曾暗示他将在那天宣布一个「很棒的东西」,但预计应该不会是 GPT-4.5 或者 GPT-5。
此外,根据 The Information 报导,OpenAI 内部还有一个全新的 AI 模型,代号为 Gobi,该模型从一开始就被设计为多模态,未来有可能成为 GPT-5。
核稿编辑:Chris
快加入 INSIDE Google News 按下追踪,给你最新、最 IN 的科技新闻!