数以智用,合以致远 | 创新数据工程,让数据“供得出”
发布时间:2025-05-28
数据是人工智能技术发展的基础燃料,可持续的高质量数据集供给是人工智能发展的不竭动力。大模型的精准预测与泛化能力,离不开海量、多样且标注准确的高质量数据集。让高质量数据集“供得出”,解决AI模型的“数据不可见性陷阱”,需要创新数据工程提供坚实支撑。

 

大模型时代,数据新特征带来新挑战 

大模型时代,数据具有“大规模”、“多样性”、“时效鲜活度”三大特征,对传统IT数据资源治理与加工提出了巨大挑战:
大规模
大模型所需的训练语料规模接近参数规模的10-15倍,例如,市面上的主流基座模型在训练阶段,都使用了经过严格清洗、加工和标注的约15万亿token,数据量达PB级别,包含大量的文本、图像、音视频等多模态数据。预处理、清洗、标注全流程需要高性能计算、海量存储空间以及高效的数据传输网络,传统的人力流水线式的数据加工模式已经无法满足。
多样性
与传统结构化数据集相比,多来源(网站&社交媒体、书籍、公文等)数据需要去除个人隐私、敏感信息、非法信息,确保数据的真实性和安全性;多格式(图像、文本、音视频)需要不同的加工技术,例如自然语言处理技术、计算视觉处理技术等。传统的IT化数据治理技术能力已经无法满足。
时效鲜活度
与传统数据集的实时汇聚技术要求相比,语料的现实时效性是大模型高质量的重要指标之一,是否包含最新的表达词汇、最热点的话题、最新兴的领域知识,语料更新迭代周期将影响大模型质量。传统的IT数据时序管理模式已经无法满足。

 

创新数据工程,实现一站式数据高效供给

 

针对数据“大规模”、“多样性”、“时效鲜活度”新特征,华为云Stack数智空间解决方案提供创新数据工程能力,围绕数据获取、加工、标注、评估、发布、管理等全流程,以全模态数据获取、智能数据加工、安全高效用数的关键能力,实现高质量语料高效供给。

数据获取

平台支持文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据从多渠道灵活导入,覆盖文本、图片、视频、多模态音频单多轮问答、视频+caption等18+文件内容格式,确保不同业务场景下的数据获取需求得到满足。

数据加工

平台预置80+种清洗算子,实现对数据进行数据提取、过滤、转换、打标签和评分等加工处理,并支持用户创建自定义算子实现个性化的数据清洗诉求。结合高性能资源调度,实现数据清洗效率提升10倍、百万级数据一周交付。

数据合成

平台支持20+预置合成指令和自定义的数据指令,对预训练文本、单多轮问答、单多轮问答(带人设)等数据集类型进行处理,并根据设定的轮数生成新数据。通过数据合成技术,可以生成大量高质量的训练数据,增强模型的泛化能力和性能。

数据标注

平台支持对支持NLP预训练/微调/强化学习等多场景和文本/图片/音频/视频多模态标注。同时,平台还提供团队标注和文本、图片的AI智能标注,使标注提效10倍。

数据评估

平台支持对处理后的文本、图片、视频等多种格式数据,按3大类15指标项100+个评估项的质量标准进行质量评估,以辅助检验数据的准确性、完整性和一致性,确保数据在进行模型训练前的高质量标准,保证模型在实际应用中的可靠性和稳定性。

数据配比

平台支持对文本、图片类数据进行数据配比,通过调整不同来源或类型数据的比例,确保模型能够更全面地学习和理解数据的多样性,提高模型的泛化能力和性能。

数据发布

平台支持NLP预训练文、NLP SFT数据集、图片+标注项、多模态图片理解、再分析数据、时序预测数据、回归分类数据等多种格式数据集按需发布,为后续模型训练提供高效的数据支持。同时,支持胶囊数据发布和跨空间发布,实现数据可用不可得的安全性和灵活可控的发布范围。

数据管理

平台支持数据全链路血缘正逆向追溯,正向实现数据集影响分析,逆向实现快速问题追踪,从而提升数据运维和数据治理的效率。同时,平台还提供完善的标签体系和数据质量控制、数据资产管理能力,提升数据治理的效率和效果。

面向数据与AI产业协同发展新周期,华为云Stack融合“供得出、流得动、用得好、保安全”四大核心能力及行业场景,推出数智空间解决方案,致力于成为数据空间信赖之选。

龙田科技云服务目录

龙田科技作为华为云总经销商,致力于为客户构建下一代ICT基础设施、Cloud&AI技术中台,提供智能化全托管运维和运营服务,开发现代化Cloud&AI原生应用。未来,龙田科技将持续携手华为,助力更多客户用好云、上好云。

注:本文素材来自华为云,版权归作者所有