Google 在 7/1 公布了新的隐私政策,明确表示蒐集网路公开资讯用来训练 AI。
在「可公开存取的来源」这一项,Google 是这麽写的:
「举例来说,我们可能会蒐集网路上的公开资讯或其他公开来源中的资讯,⽤於训练 Google 的 AI 模型及开发 Google 翻译、Bard 和 Cloud AI 等功能。或者,如果您的商家资讯出现在某个网站上,我们也可能会将该资讯编⼊索引,并显⽰在各项 Google 服务中。」
之前在 2022 年 12 月的版本中,这一段还仅是「用於训练 Google 的语言模型」,这次则是把语气加强,直接使用「AI」人工智慧一词。众所皆知,大型语言模型需要非常大量的文本资料训练而成,像 OpenAI 之前就透过 API 取得 Twitter 与其他社群的大量对话来训练出 ChatGPT;如果 Google 真有心要让 Bard 或其他 AI 模型超越 GPT-3、GPT-4,那麽资料量是必要更庞大、多元。
通常一般网路公司的隐私政策只会表明这间公司会用上经过使用者同意後直接提供的资料;虽说 Google 已经把「可公开存取的来源」这条列出行之有年,但这条政策也有另一层意味:尽管任何人都可以看到网路公开发布的任何内容,但资料的使用方式本身也正在变化,重点已经从谁可以看到资料,变成如何利用资料。
而能极大量地吞吐、分析资料的,大概也只有像 Google、微软、Meta 这一类大型科技公司。对一般使用者来说,似乎也得更深思熟虑决定他们在网路上公开分享的内容,并意识到这些公开发文可能会被难以想像的方式利用。
资料来源:9to5Google、Android Authority、Search Engine Journal
责任编辑:Chris
核稿编辑:Sisley