热点推荐词:

行业动态

大模型驱动的数据治理技术展望

文字:[大][中][小] 手机页面二维码 2024/6/21     浏览次数:    

  近年来,大模型技术热潮中对数据质量的要求提升到了一个新的高度。与此同时,人们也在探索大模型本身能否助力于数据清洗与数据治理等工作。本文将从技术的角度展望大模型驱动的数据治理技术,并分享此领域的一些研究热点。

  主要内容包括以下几个部分:

  1.以数据为中心的人工智能

  2.大模型预训练中的数据工程

  3.大模型驱动的数据治理技术

  4.总结与展望

01 以数据为中心的人工智能

  以数据为中心的人工智能,这一理念在 2021 年由吴恩达教授提出,强调了在构建 AI 系统时,对数据的系统化工程处理的重要性。与过去以模型为中心的方法相比,以数据为中心的方法更加注重数据的质量、多样性和治理流程。在早期的机器学习和深度学习时代,我们主要关注特征工程、模型设计和参数制定等方面,但如今,数据的质量和治理已成为决定 AI 系统性能的关键因素。在大模型时代,我们不再需要过多关注特征工程和模型层面的变动,而是将更多的精力投入到数据的治理上,即如何通过有效的数据管理和迭代,使数据发挥更大的价值。

  数据是 AI 的原油,AI 系统的成功在很大程度上取决于数据的质量,这一点被广泛认同。一个 AI 系统 80% 的工作量集中在前期的预训练数据准备和后期的数据飞轮迭代上。对于如何定义优质的数据,张博士的论文中提出了几个关键维度:覆盖范围广、维度多样、时效性强、精度高以及合规性好。这些维度不仅反映了小模型对数据的要求,在大模型预训练时代更是显得至关重要。我们需要的是具有多样性和泛化能力的数据,以确保AI 模型在各种场景下都能表现出色。

  在以数据为中心的 AI 框架中,数据开发通常分为三个阶段:训练数据的开发、推理数据的开发和数据维护。训练数据的开发包括数据的收集、标注和预处理等步骤。推理数据的开发涉及训练样本评估与提示工程等。数据的维护则关注于当后续不断有新数据产生时,对于数据的理解与质量管控,以及数据的存储和检索等任务。以上是以数据为中心的人工智能的整体思路。

02 大模型预训练中的数据工程

  在大模型的预训练过程中,数据工程的工作量显著增加。以 GPT 为例,实际训练中使用的数据涵盖了多个层面,我们需要收集大量的语料库,其原始大小为 45TB,清洗完之后剩下 175GB。此外还融合丰富的代码数据及上万个 Prompt 任务参与训练。实际上,成本及创意主要在数据准备上,对于 Transformer 技术的运用,大家的使用方法都大同小异。对于某些特定领域的表达与通用领域存在差异时,如专业术语或符号,我们可能需要进行词表的扩充,以确保模型能够准确地理解这些表达。

  纵观 GPT 的发展历史,从 2018 年到 2020 年,我们不难发现,随着模型参数的逐步增加,数据规模也在同步扩大。例如,GPT-1 虽然只有 1 亿多参数,但它已经使用了 4.8GB 的未过滤数据。到了 GPT-2,参数数量增至 15 亿,数据规模扩大了 10 倍,并且这些数据还经过了人工过滤,进一步提升了数据质量。到了 GPT-3,算力提升了近百倍,数据量也大幅增加,从 45TB 的原始数据中过滤出了 570GB 的数据。因此,尽管参数庞大和算力强大是 GPT 模型的显著特点,但背后的核心在于海量的数据输入。没有足够的数据支持,再强大的算力也难以发挥作用,正所谓“巧妇难为无米之炊”。数据的丰富性和质量对于模型的训练至关重要。另一方面,我们观察到整个模型的架构其实并未发生显著变化。真正在起作用的是 scaling law(伸缩法则),即随着模型规模和数据量的增加,模型的性能也会相应提升。

转载自公众号数据思考笔记


返回上一步
打印此页
[向上]