数据是大模型的基础,是决定大模型应用效果的最为关键的因素。随着大模型应用的广泛开展,数据在人工智能中的作用被显著放大,从而产生了以数据为中心的人工智能这一新兴概念,究人员和从业人员的注意力逐渐从推进模型设计转向提高数据的质量和数量。对于大模型应用而言,没有好的数据治理就没有好的应用效果,因此大模型应用相关的数据治理应该尽早引起足够重视并得到深入研究。
数据治理通常是指对数据进行管理和控制的流程和策略,目的是确保数据的质量、可靠性、安全性和合规性。数据治理包括数据采集、存储、处理、分析、评价和共享等多个环节,需要制定相应的规范、标准和流程,以确保数据的正确性、一致性和完整性。大模型训练、微调和应用开发所涉及的数据治理问题与一般的数据治理既有一致性又有特殊性。总体而言,大模型的数据治理与大模型的应用过程联系十分紧密,由于其本身还没有形成稳定的方法论,因此不像一般企业机构的数据治理那么成熟,具有一定的系统完整性和独立性。大模型的数据治理问题目前还不能脱离其应用流程独立进行。
大模型与数据的关系如同大脑与知识的关系,既相互依赖不可分割,又彼此独立相辅相成,因此大模型相关的数据治理要以大模型应用的开发目标为宗旨,紧紧围绕应用目标制定相关的数据策略,既要考虑到大模型应用整个生命周期,例如数据存档、加工复用、版本控制、质量检测、追踪度量、备份恢复等多个方面,还要注重法律、规定、版权、行业标准和道德等方面的要求和约束,以确保应用的合规性和安全性。
大模型训练和应用开发过程所涉及的数据通常有以下类型:
(1)文本数据或其它原始数据。可用于非监督预训练,也可提供参数微调增强领域能力,或提供指令微调以适应领域任务,及增加领域知识。例如通用汉语语料库。
(2)领域数据,包括各类文本数据,需要分块处理并选择一定的方式进行向量化,领域数据也可用于模型调参,或经过标注之后进行指令微调。例如海量古汉语原始语料库。
(3)标注数据。是进行指令微调的数据主体,包括问答、评价、情感标注、对齐等,主要提供标注标签和格式指南,以及高质量的标注数据集。例如图书馆参考问答库。
(4)测试评价数据。需要构建一定规模的语料库,并考虑制定适应不同目的的语料库的标准规范。
(5)提示词框架模版。总结整理图书馆相关领域应用的提示词框架,结合嵌入方式,提供各类词表(角色词表、任务指令词表、示例词表等等)。
(6)知识库构建。例如要以问答方式提供图书推荐等,就可以考虑构建书目数据的向量知识库;或把图情百科等大量传统的工具书作为高质量数据开发成大模型应用时进行语言生成的知识库。
随着大模型应用的成熟,数据治理不仅包括用于构建和完善大模型时的训练数据,还包括应用过程中的推理数据(如用于检索增强 RAG 的向量知识库数据、提示词框架数据和应用测试数据等)、上述类型的数据都需要进行系统规划、收集、加工、处理、保存和版本管理与更新,以保证大模型训练和应用开发的一致性并提供测试评估的基准。