多年来,构建强大人工智能系统的人一直在使用从互联网上提取的大量文本、图像和视频来训练他们的模型。
现在,这些数据正在枯竭。
麻省理工学院(mit)领导的研究小组“数据来源倡议”(data Provenance Initiative)本周发表的一项研究显示,过去一年里,用于训练人工智能模型的许多最重要的网络资源都限制了它们数据的使用。
这项研究调查了三个常用的人工智能训练数据集中的14000个网络域名,发现了一种“正在出现的同意危机”,因为出版商和在线平台已经采取措施防止他们的数据被收集。
研究人员估计,在被称为C4、RefinedWeb和Dolma的三个数据集中,5%的所有数据和25%来自最高质量来源的数据受到了限制。这些限制是通过机器人排除协议(Robots Exclusion Protocol)设置的,这是一种已有几十年历史的方法,网站所有者可以通过一个名为Robots .txt的文件来防止自动机器人抓取他们的页面。
该研究还发现,其中一组C4中多达45%的数据受到网站服务条款的限制。
该研究的主要作者谢恩·朗普雷(Shayne Longpre)在接受采访时说,“我们看到,在网络上使用数据的同意率正在迅速下降,这不仅会对人工智能公司产生影响,也会对研究人员、学者和非商业实体产生影响。”