迄今最大，AI2推出用于训练语言模型的开放数据集Dolma，包含3T token

埃律西昂 · 发表于 2023-8-22 08:47

本帖最后由埃律西昂于 2023-8-22 08:53 编辑

来源： TechCrunch
原英文标题： <AI2 drops biggest open dataset yet for training language models>

像 **-4 和 Claude 这样的语言模型功能强大且非常有用，但训练这些模型的数据却是一个严密的秘密。艾伦人工智能研究所（Allen Institute for AI，简称 AI2）旨在通过一个新的巨大文本数据集扭转这一趋势，该数据集可免费使用，并开放供检查。

该数据集被称为 "Dolma"，旨在为研究小组计划中的开放语言模型（或称 OLMo）奠定基础（Dolma 是 "Data to feed OLMo's Appetite "的缩写）。既然人工智能研究界打算自由使用和修改该模型，那么（AI2 研究人员认为）他们用来创建该模型的数据集也应如此。

在一篇博文中，该组织的卢卡-索尔达尼（Luca Soldaini）解释了数据来源的选择，以及团队为使其适合人工智能使用而采用的各种流程背后的原理。(他们在文章开头指出："更全面的论文正在撰写中"）。

尽管 OpenAI 和 Meta 等公司公布了用于构建语言模型的数据集的一些重要统计数据，但其中很多信息都被视为专有信息。除了众所周知的阻碍审查和改进的后果之外，还有人猜测这种封闭的方式可能是由于数据的获取不道德或不合法：例如，许多作者的书籍的盗版被摄取。

从 AI2 制作的这张图表中可以看出，最大和最新的模型只提供了研究人员可能想要了解的特定数据集的部分信息（包括：哪些信息被删除了，为什么？哪些是高质量文本，哪些是低质量文本？是否适当删除了个人信息？）。

当然，在人工智能竞争激烈的背景下，这些公司有特权保守其模型训练过程的秘密。但对于公司之外的研究人员来说，这使得这些数据集和模型更加不透明，难以研究或复制。

AI2 的 Dolma 则与此相反，它的所有数据来源和过程--比如，如何以及为什么要将其裁剪为原始英文文本--都被公开记录在案。

这并不是第一个尝试开放数据集的公司，但却是迄今为止规模最大的（30 亿个代币，这是人工智能原生的内容量衡量标准），而且他们声称，在使用和权限方面也是最直接的。它使用的是 "中等风险人工制品 ImpACT 许可证"，详情请点击这里。但从本质上讲，它要求 Dolma 的潜在用户：

提供联系信息和预期使用案例
公开任何 Dolma 衍生作品
在相同许可下发布这些衍生作品
同意不将 Dolma 应用于各种被禁止的领域，如监控或虚假信息。

对于那些担心尽管 AI2 已经尽了最大努力，但他们的一些个人数据可能已经进入数据库的人，这里有一份删除申请表。该表格适用于特定情况，而非一般的 "别用我"。

aibo · 发表于 2023-8-22 10:28

封闭 vs 开源。。。

有能力的谁不搞封闭

fairness · 发表于 2023-8-22 10:56

这种公开的数据集，可以极大的推动AI的发展；
仅仅靠语言并不能完全明白一个信息，可能需要{图片 + 语言} 并行的方式。

mj_majun · 发表于 2023-8-22 11:00

感觉下一步是不是要把视频，语音，图片都打通了

ris · 发表于 2023-8-22 14:37

mj_majun 发表于 2023-8-22 11:00
感觉下一步是不是要把视频，语音，图片都打通了

然后桌子上就能弄个小机器人或者什么3D投影，然后你跟他聊天什么的，是吗？

或者像钢铁侠的贾维斯？

mj_majun · 发表于 2023-8-22 14:42

也许晚上来呢~~~

账号		自动登录	找回密码
密码			加入我们

[系统软件] 迄今最大，AI2推出用于训练语言模型的开放数据集Dolma，包含3T token