据IT之家3月1日消息,近日外媒404 Media称,博客平台WordPress、Tumblr 运营方Automattic计划向多家AI公司出售用户数据。Automattic官方就此澄清,表示其默认屏蔽AI爬虫且不会分享非公开数据。
404 Media指出,根据其掌握的内部文档,Tumblr产品经理表示Automattic正为OpenAI和Midjourney准备数据集。
而在这一包含Tumblr近十年所有公开帖子内容的数据集里,混入了大量不该向外部提供的部分,包括但不限于:
1、公共博客上的私人帖子
2、已删除/停用博客上发布的帖子
3、私信回复
4、合作伙伴拥有版权的付费推广内容
在404 Media的报道后,Automattic发布了一份关于在快速发展的 AI 世界中“保护用户选择”的声明,表示其正在密切关注AI技术的最新进展,并努力在尊重用户隐私和数据控制的前提下研究如何与AI公司合作。
Automattic称其目前默认阻止AI平台爬虫。WordPress和Tumblr用户可通过设置阻止AI公司的数据抓取。IT之家注意到,Automattic表示如果用户之前禁用了搜索引擎的爬取,则默认情况下新阻止选项会打开。
此外,Automatic承认目前还没有法律强制AI爬虫遵守这种不抓取偏好。不过由于欧盟相关立法即将落地,这种情况可能很快就会改变。
该公司还证实,它正在直接与特定AI公司合作,仅提供WordPress和Tumblr上公开且用户未禁止向第三方公司分享的内容。