互联网巨头,怎么样合法地「偷」你的数据训练 AI

2024-07-06 www.dnxtw.com

蚊虫再小也是肉,积少成多。

创作者 | 芯芯

编写 | 靖宇

你清楚吗,自已的数据,现在已经开始合理合法的被互联网大厂们作为 AI 训练了。

在新一波的 AI 比赛中,因为训练实体模型需要很多数据,当互联网一般数据发掘消失殆尽,软件上很多用户本人具体内容,便成为了充满诱惑的矿产地。

一些硅谷的科技有限公司如此渴望新数据,逐渐鬼鬼祟祟把 AI 训练参与到数据应用政策中,授予自己使用大家数据的权力。

在过去一年多公里,包含谷歌搜索、Meta、Adobe、Zoom 和 X 等大型企业陆续升级其服务条款或隐私政策,接受自己运用用户数据来训练生成式 AI 实体模型。

这种互联网大厂,都悄悄在「服务条款」里放进了什么货?

01、美国硅谷行业巨头「动作」

伴随着互联网巨头对数据的向往也越来越大,他们已经细心重新写过其条款和标准,以含有「AI人工智能」、「机器学习算法」和「生成式人工智能」等词语。

为了防止用户对隐私泄露的抵触,企业有时候悄悄的开展这种变更。在许多情况下,用户会到未阅读文章一字的情形下点一下允许,毫无警觉去接受协议书。

以下是美国硅谷大型厂在用户服务条款中分别「夹带私货」的小细节:

谷歌搜索

在 2022 年底,当 OpenAI 发布 ChatGPT 并引发了全行业的追逐比赛后,谷歌的科研人员和技术工程师逐渐讨论如何运用别的用户数据。数十亿字的英语具体内容存放在大家的 Google 文档和别的完全免费 Google 运用中,可是企业的隐私政策阻碍了他们如何使用这个数据。

那时候,谷歌的隐私政策要求企业必须使用公布可以用信息来「协助训练谷歌的语言模型和搭建像 Google 汉语翻译这样的功能」。

上年 6 月,据时代报导,谷歌的法律机构规定个人隐私精英团队拟定语言表达,以拓展企业可以用顾客数据的范畴。

上年 7 月,谷歌搜索并对隐私政策进行了修改,增强了公共性信息适合于训练其 AI 对话机器人和特色服务内容。

谷歌搜索将 Bard 和云空间 AI 参与到用户条款中|NYT

「使用公布可利用的信息来协助训练谷歌的 AI 实体模型,并构建例如谷歌在线翻译、Bard 和云 AI 性能等商品和结构。」

为了安抚用户,谷歌搜索声明称,其隐私政策的变更「仅仅澄清了像 Bard(现是 Gemini)这种新业态也包括在内。大家并不会因为这种语言变化和先是在其他类型数据上训练实体模型。」

谷歌的 AI 训练不过也有以最个人化的数据,如给朋友和家人的信息。谷歌搜索发言人表示,在获得一部分用户许可的情况下,谷歌搜索允许其在很多方面应用他的本人电子邮箱训练其人工智能技术。

Meta

上年 Meta 就升级了有关隐私政策,用户「在咱们产品和服务上所提供的活动及信息」要被用于训练其 AI,包含使用像其 AI 工具时所作或所讲的一切。

Meta 表明,其 AI 不容易载入用户在 Messenger 和 WhatsApp 等场景上和朋友和家人中间上传的信息,除非是用户在消息中 @ 了该 AI 对话机器人。Meta 将和 AI 交流的义务推荐给用户,表明人们应该「留意」这些人在提醒中说的话,例如不必包含任何个人信息,如家庭住址或联系电话。

Meta 声明表示:「我发给生成式 AI 功能性的信息会有什么?AI 很有可能会保留并用你在聊天时分享信息,以提供更加个性化回应及相关信息,你可能会与值得信赖的合作方(如检索服务提供商)分享您所提出的某些问题,以提供更加有关、准确和最新回应。」

「应用公布可利用的信息训练人工智能模型是整个市场的国际惯例,并不是大家服务项目特有。」Meta 发言人在声明中说。

X

X 在条文后才补上一句针对人工智能模型训练的事宜|NYT

埃隆马斯克一直在构建一个 AI 新项目。上年 9 月,X 则在隐私政策中加入了一句话,有关机器学习和人工智能技术。

「使用收集的信息提供和经营 X 产品与服务。大家还使用收集的信息来改进和个性化大家产品和服务,便于你在 X 中取得不一样的体验,包含向大家展现更相关的信息和宣传、建议知道的人主题内容、开启和帮助你发觉关联企业、第三方应用与服务。你可能会应用收集的信息和公开可利用的信息来协助训练我们自己的机器学习算法或人工智能模型,并实现本政策中简述的效果。」

Snap

Snap 有一些服务条款的变更只有几个字。另一些则增加了整篇具体内容来描述生成式人工智能实体模型工作原理,以及这些对用户数据的访问种类。

比如,在今年的,Snap 升级了其对话机器人 My AI 的数据收集到的隐私政策。Snap 提示用户不必与其说人工智能聊天智能机器人共享商业秘密信息,所以这些信息将主要用于训练。

Snap 针对 My AI 对话机器人相关条款修改比较多|NYT

「My AI 是一个基于生成式 AI 技术性搭建的对话机器人,设计构思保证安全。生成式 AI 是一种正在开发中的专业技术,它会给予抱有偏见、有误、有危害或误导性的回答。因此,你不该依靠它提议。您也不该共享一切商业秘密或比较敏感信息 —— 如果你这么做,My AI 会用它。」

「当你与 My AI 互动时,大家会用您分享内容和您的位置(如果你已启动 Snapchat 的位置分享)以改进 Snap 的商品,包含提高 My AI 安全性,并人性化你的感受,包含广告宣传。」

Zoom

Zoom 上年 7 月逐渐升级其服务条款,答疑会将用户数据用以训练 AI,但遭受用户和个人隐私倡导者的大规模指责。在面对社交媒体上的极力反对响声后,Zoom 上年 8 月又重新升级了服务条款,回应未经同意不容易使用视频、声频或聊天信息。

更新后的服务条款依然规定用户「在这里授于 Zoom 永久、全球性、非专有权的、免稿酬的、能转许可和可转让的批准及其他任何支配权」应用顾客具体内容。

那些支配权包含「再次派发、公布、导进、浏览、应用、存放、传送、核查、公布、储存、获取、改动、拷贝、分享、展现、拷贝、派发、汉语翻译、基因表达、写作衍生作品与处理」顾客具体内容。

条文不会再实际谈及 Zoom 有权利就顾客信息进行「AI 和 ML 训练」,反而是更模糊地提及「服务项目开发设计、营销推广、剖析、品质保证、机器学习算法、人工智能技术、学习培训、检测、服务项目、软件或 Zoom 同类产品、服务与软件的改进,及以上一切组成。」

Adobe

在今年的 6 月初,Adobe 因则在隐私政策中加入一句有关自动化语句,惹怒了许多原创者,很多用户把它看做是与 AI 数据爬取相关。

「大家浏览你的具体内容:大家可能会通过自动和手动方式浏览、查询或倾听你的具体内容,但只在有限方式下,而且仅仅在法律法规允许的范围内。」

Adobe 企业的用户针对数据被拿去用 AI 训练特别敏感|NYT

这种条文严重影响 Adobe 创意云套件的超出 2000 万用户,一些用户觉得这容许 Adobe 浏览、查询他的具体内容,包含受保密协议书维护作品。一些人认为 Adobe 已经监控自己的工作,消化吸收用户的艺术作品,这可能会将其用于训练 AI 实体模型。

在用户极力反对后,Adobe 升级了服务条款,已经确定不会用顾客著作训练 AI。

Adobe 根据网络文章回应,这种变动就是为了检验和删除违法具体内容,比如儿童色情原材料(CSAM),及其乱用具体内容和行为,包含垃圾短信和钓鱼攻击。Adobe 不会用保存在 Adobe 云上的文档来训练其 Firefly AI。

02、提早占好「免除责任」坑

但是,巨头们的动作,确实是有管控在看见的。

美国联邦贸易委员会(FTC)一直以来一直盯着与企业隐私政策相关的欺诈性与不公平公正个人行为。过去曾提起诉讼过那些以偷摸方法变更隐私政策、毁坏对消费者目前约定的企业。

在今年的 2 月,美国联邦贸易委员会警示科技有限公司,更改隐私政策以追溯性地爬取旧数据有可能是不合理或误导性的,将追责「偷偷」变更隐私政策以发掘用户数据用以 AI 的企业。

FTC 强调,企业有可能被引诱以其用户群中挖掘目前数据以便 AI 实体模型应用,有「强悍的商业服务动因」。FTC 称企业潜在性的窘境是利益输送。「投资者需要注意,一切背叛其用户个人隐私约定的企业都会违反法律。」

但是,就在那上星期,微软公司 AI CEO Mustafa Suleyman 公布称互联网技术的公开内容可以被完全免费用来训练 AI,这般直接了当讲话导致了强硬的社会舆论反跳。

从美国硅谷巨头们在用户使用条款里的修改能够得知,每家的确都是在运用品牌优势,将用户数据用以 AI 训练当中。但是,实际什么数据会用来训练,什么不可以,业内并未达成一个的共识 —— 一项技术发生的初期,肯定会出现这类标准欠缺的「狂野西部」的时期。

而上述被姿势手和脚的使用条款,可谓是巨头们为之后免除责任提早占据坑。如果不出意外的话,中国一种大型厂和 AI 企业,应当也已经在用户条款中改动、加了 AI 训练内容。

对于一般用户来讲,针对将近数十页的用户使用条款,99% 都会直接忽视。可是,假如这款产品,可以通过有限的资源数据复制一个「你」时,用户是不是应该更谨慎一些?

本文来自微信公众平台:极客公园(ID:geekpark),创作者:芯芯

广告宣传申明:文章正文所含的对外开放跳转页面(包括不限于网页链接、二维码、动态口令等方式),用以传送大量信息,节约优选时长,结论仅作参考,电脑系统网全部文章内容均包括本声明。

相关阅读