数据是人工智能技术发展的基础燃料,可持续的高质量数据集供给是人工智能发展的不竭动力。大模型的精准预测与泛化能力,离不开海量、多样且标注准确的高质量数据集。让高质量数据集“供得出”,解决AI模型的“数据不可见性陷阱”,需要创新数据工程提供坚实支撑。
大模型时代,数据新特征带来新挑战
大模型时代,数据具有“大规模”、“多样性”、“时效鲜活度”三大特征,对传统IT数据资源治理与加工提出了巨大挑战:
大规模
大模型所需的训练语料规模接近参数规模的10-15倍,例如,市面上的主流基座模型在训练阶段,都使用了经过严格清洗、加工和标注的约15万亿token,数据量达PB级别,包含大量的文本、图像、音视频等多模态数据。预处理、清洗、标注全流程需要高性能计算、海量存储空间以及高效的数据传输网络,传统的人力流水线式的数据加工模式已经无法满足。
多样性
与传统结构化数据集相比,多来源(网站&社交媒体、书籍、公文等)数据需要去除个人隐私、敏感信息、非法信息,确保数据的真实性和安全性;多格式(图像、文本、音视频)需要不同的加工技术,例如自然语言处理技术、计算视觉处理技术等。传统的IT化数据治理技术能力已经无法满足。
时效鲜活度
与传统数据集的实时汇聚技术要求相比,语料的现实时效性是大模型高质量的重要指标之一,是否包含最新的表达词汇、最热点的话题、最新兴的领域知识,语料更新迭代周期将影响大模型质量。传统的IT数据时序管理模式已经无法满足。
创新数据工程,实现一站式数据高效供给
针对数据“大规模”、“多样性”、“时效鲜活度”新特征,华为云Stack数智空间解决方案提供创新数据工程能力,围绕数据获取、加工、标注、评估、发布、管理等全流程,以全模态数据获取、智能数据加工、安全高效用数的关键能力,实现高质量语料高效供给。
数据获取
数据加工
数据合成
数据标注
数据评估
平台支持对处理后的文本、图片、视频等多种格式数据,按3大类15指标项100+个评估项的质量标准进行质量评估,以辅助检验数据的准确性、完整性和一致性,确保数据在进行模型训练前的高质量标准,保证模型在实际应用中的可靠性和稳定性。
数据配比
数据发布
平台支持NLP预训练文、NLP SFT数据集、图片+标注项、多模态图片理解、再分析数据、时序预测数据、回归分类数据等多种格式数据集按需发布,为后续模型训练提供高效的数据支持。同时,支持胶囊数据发布和跨空间发布,实现数据可用不可得的安全性和灵活可控的发布范围。
数据管理
平台支持数据全链路血缘正逆向追溯,正向实现数据集影响分析,逆向实现快速问题追踪,从而提升数据运维和数据治理的效率。同时,平台还提供完善的标签体系和数据质量控制、数据资产管理能力,提升数据治理的效率和效果。
面向数据与AI产业协同发展新周期,华为云Stack融合“供得出、流得动、用得好、保安全”四大核心能力及行业场景,推出数智空间解决方案,致力于成为数据空间信赖之选。
龙田科技云服务目录
龙田科技作为华为云总经销商,致力于为客户构建下一代ICT基础设施、Cloud&AI技术中台,提供智能化全托管运维和运营服务,开发现代化Cloud&AI原生应用。未来,龙田科技将持续携手华为,助力更多客户用好云、上好云。
注:本文素材来自华为云,版权归作者所有