BLOG

AI大模型训练数据来源分类及获取途径有哪些?

AI 大模型的训练数据与传统 AI 训练数据有所差异。

对于传统 AI 训练,常用的 有 MNIST、ImageNet、Open Images 等数据集,这些数据集可用于自然语言处 理、计算机视觉和语音识别等传统 AI 应用。研究人员经常使用这些数据集作为创 建、评估和对比 AI 模型有效性的标准,用户也可以根据开放许可条款访问、使用、 更改和共享这些公开数据集。 大语言模型在训练过程中所需的数据内容由具体阶段所决定。以 ChatGPT 为例, 其基础模型训练过程可分为三个主要阶段:预训练、监督微调(SFT)和强化学习(RLHF),后两个阶段也被称为对齐(Alignment)阶段。有时也需要结合某行业 的专业知识进行训练和对齐,即行业模型阶段。通过在各阶段输入不同的训练数据, 模型能够提供高效准确的输出并满足特定应用场景需求。

1. 预训练阶段:在预训练阶段,模型需要输入包括书籍期刊、新闻报道、学 术论文、对话文本和代码等在内的多样化数据。该阶段的目标是通过大规 模的多样化数据,让模型建立起基本理解与知识架构。因此,这个阶段的 训练数据特点是“广”,即涵盖范围广泛。 2. 监督微调阶段(SFT):在监督微调阶段,数据由人工标注人员设计,包 括具体的问答对示例。通过输入这些标注数据,模型能够在一些未见过的 任务中提高判断能力,泛化性得以提升。这一阶段对于训练数据的要求较 高,需要精心设计和高质量的人工标注。 3. 强化学习阶段(RLHF):在强化学习阶段,模型的目标是通过人类反馈 进行调整,使其输出结果更符合认知。这个过程包括对模型回答进行评分 与排序,以便模型学习如何更好地回答用户问题。 强化学习阶段与监督微调阶段的数据需要来自人类的高质量反馈,其特征 可以总结为“齐”,即让大模型的输出结果和人类需求对齐。 4. 行业模型:如将经过微调的模型应用于法律、金融等特定行业,则需要结 合该行业的专业知识进行训练与对齐。此时,所需的数据则包括行业数据 库、专业文档和特定领域的网站内容等,需要具有较高的专业性和行业深 度,其特征可以用“专”来概括,即专业性强。

大语言模型常使用多样的公共文本数据集的混合体作为预训练语料库。具体而言, 国内外大语言模型训练数据集的主要来源为维基百科、书籍期刊、论坛、代码、 Common Crawl(CC)网页数据集和其它数据集等。

我们对于以上五类公共文本数据集进行逐一分析。维基百科是一个多语言协作式在线百科全书,由于其引用、撰写风格较为严谨,以 及跨语言与领域的内容,维基百科的文本被视为非常有价值的资源,主要研究实验 室通常会使用仅包含英文的过滤版本维基百科作为数据集起点。

书籍期刊也是大模型训练数据的重要来源。一方面,由虚构和非虚构书籍混合而成 的叙述内容对于连贯的故事讲述和回答较为适用,另一方面,因为学术写作的输出 涉及众多专业科学领域,且数据格式复杂,因此期刊可以有效提升大语言模型对于 科学知识的理解。 目前,有许多书籍数据库收集了涵盖多种语言的公开可用电子书,并将其整理成易 于使用的格式 ,例如 Project Gutenberg 、Smashwords(BookCorpus)、 Books3 等数据集。而期刊数据库则包括 ArXiv 和美国国家卫生研究院(NIH)等 数据集,ArXiv 主要集中在数学、计算机科学和物理领域,其用 LaTeX 语法编写 的论文可以将不同格式数据转换为统一形式,对于公式、符号、表格等内容的表示 也较为适合模型学习,使得大模型更好地处理和分析科学文本数据。

论坛数据指的是来自 StackExchange 等问答网站和 Reddit 等社交媒体平台的对 话或视频字幕数据集等。Stack Exchange 是一个围绕用户提供问题和答案的网站, Stack Exchange Data Dump 包含了在 Stack Exchange 网站集合中所有用户贡献 的内容的匿名数据集,是截止到 2023 年 9 月为止公开可用的最大的问题-答案对 数据集合之一,涵盖了编程、园艺和艺术等广泛主题。而社交媒体平台 Reddit 是 一问一答的 QA 内容形式,且基本都是回复的真实情况表达,为了使得回答更符 合人类表达模式,AI 厂商非常需要这类数据来进行高质量的预训练和监督微调。

代码数据是大语言模型进行代码生成、代码补全等任务所必备的数据。代码数据不 仅包括程序代码本身,还包含丰富的注释信息,通过在大量代码上进行预训练,可 以显著提升模型的代码生成效果。与普通的自然语言文本相比,代码通常是一种格 式化语言,对应着长程依赖和精确的执行逻辑,其表达中的特定语法结构、关键字 以及编程范式对代码的含义与功能起着重要影响。 代码数据主要来源于 GitHub 等代码仓库以及 StackOverflow 等编程问答社区。 在代码仓库中,包含了各种编程语言在内的开源代码,应用范围广阔,这些代码库 中的代码通常经过严格的代码评审和实际使用测试,因此具有较高质量与可靠性; 而在 StackOverflow 等编程问答社区中,数据则包含了开发者提出的问题、其他 开发者的回答以及相关的代码示例,提供了丰富的语境和真实的代码使用场景。

网页数据包含 Common Crawl (CC)数据集和 C4 数据集等。Common Crawl 是一个自 2008 年起持续抓取的大规模 Web 爬虫数据集,包括原始网页、元数 据和文本摘录,涵盖了不同语言和领域的文本。Common Crawl 每月爬取数十亿 个页面,将这些数据存储在可搜索的数据库中,并提供一些列开源工具,帮助用户 下载和分析数据。Common Crawl 所有抓取数据均免费开放,无需注册或申请许 可,使得任何人都能够访问大量的网络信息并进行研究与开发。CC 数据集规模庞 大,包含数十亿个页面和数百 TB 的数据,覆盖全球众多网站,主要研究实验室 通常使用其仅包含英文的过滤版本 C4 作为数据集的起点。CC 数据集最新的数据 是在 2024 年 5 月抓取的,存档包含 2.70 亿个页面。

多模态大模型需要大规模的多模态训练数据。在大语言模型迅速发展的同时,大模 型开始迁移到图像、视频和语音等其他模态领域,并与大语言模型融合,形成多模 态大模型。多模态大模型把各种感知模态结合起来,可以以更全面综合的方式理解 和生成信息,最终实现更丰富的应用。多模态大模型的训练需要有大模型的多模态 数据,例如图像-文本对、视频-文本对等数据集。图像-文本对包含了图像以及描述 该图像内容的文本数据,让模型可以学习组成图像的像素之间、文字与图像的关联。 视频-文本对则包含了视频以及描述视频的文本,让模型不仅可以学习单个画面, 还可以理解视频中的时间序列和动态变化。

基于上述数据,建立了 Pile 数据集、RefinedWeb 数据集等许多经典的训练数据 集,以及一批涵盖多种模态的大模型数据集。 1. Pile 数据集是一个用于大语言模型训练的大规模文本语料库,由 Common Crawl、Wikipedia、OpenWebText、ArXiv、PubMed 等 22 个不同的高质量 子集构成。Pile 数据集包含了大量不同领域和主题的文本,从而提高了训练数 据集的多样性和丰富性,总计规模大小超过 800G 。2. RefinedWeb 是由位于阿布扎比的技术创新研究院在开发 Falcon 大语言模型 时同步开源的大语言模型预训练集合,主要由从 CommonCrawl 数据集过滤 的高质量数据组成。3. 此外,常见的还包括 ALIGN、VAST-27M、WebVid-2.5M 等多模态数据集。

数据成为影响 AI 大模型效果的重要差异化环节,其规模、质量与多样性直接影响 模型的性能和应用效果。那么以上提到的各种类别的训练数据从何处获取?其获取 途径多种多样,主要包含公开渠道、企业自研、直接购买和合作交换等方式。 公开渠道是获取训练数据的重要途径之一。公开数据集通常由研究机构、大学、政 府组织或开源社区提供,涵盖领域广泛。例如,Wikipedia 提供了大量经过验证的 百科全书内容,Common Crawl 数据集包含了从互联网中抓取的大量网页数据, 而 Reddit 则提供了丰富的社交媒体讨论和用户生成内容,研究者们可以使用这些 数据集进行大模型训练,有效推动 AI 技术发展。

企业自研数据是指企业通过自身渠道生成和收集的数据。这些数据通常具有更高的 质量与针对性,能够更好地满足特定应用场景的需求。例如,谷歌通过扩展服务条 款,利用公开的谷歌文档、谷歌地图上的餐厅评论和其他在线资料,为其 AI 产品 提供服务。众多企业通过自身业务流程和用户互动,积累了大量结构化和非结构化 数据,为行业特定的 AI 应用提供了宝贵的训练素材。但需要注意的是,企业自研 数据在使用过程中要保证合法性。 直接购买也是获取训练数据的常见方式。市场上有许多提供有偿数据服务的商业团 队和公司,其根据数据类型、数据规模或是否需要标注等规则向 AI 开发者提供高 质量的数据集。例如,Scale AI 等数据标注公司提供大规模、高质量的标注服务, 而数据市场平台如 Kaggle 和 AWS Data Exchange 则允许开发者购买和使用各 种类型的数据集,涵盖从金融数据到医疗记录的广泛领域。通过与这些数据商合作, AI 公司可以使用高质量的数据集来训练其模型。 最后,数据交换和合作也是获取高质量训练数据的重要手段。许多公司和研究机构 通过合作来共享各自的数据资源,实现互利共赢。在某些行业,企业之间通过数据 联盟和共享平台,交换非竞争性的数据,例如医疗行业中的研究机构和医院共享匿 名化的患者数据。此外,政府和公共机构也与私营企业合作,共享公共数据资源, 以推动技术创新和公共服务提升。

我们总结,AI 大模型的训练离不开高质量的数据来源,大语言模型常使用维基百 科、书籍期刊、论坛等多样的公共文本数据集的混合体作为预训练语料库,而多模 态大模型则需要大规模的图片、视频和语音等多模态训练数据。这些训练数据的获 取方式多种多样,主要包含公开渠道、企业自研、直接购买和交换合作等方式。然 而,随着 AI 技术的快速发展和广泛应用,AI 厂商在获取和使用数据时,常面临 法律和道德上的挑战,围绕数据版权的争议也在日益增多。