*“2024年,某AI团队发现了一个令人震惊的事实:他们花了6个月优化模型架构,却只提升了3%的准确率。而另一支团队,仅仅通过清理和重新标注训练数据,就在2周内提升了15%的准确率。不是模型不重要,而是数据更重要。” *


一、那个被忽视的”数据工程”

让我们从一个行业的盲点开始。

某电商公司决定构建一个推荐系统。他们聘请了顶尖的机器学习工程师,使用了最先进的深度学习模型,购买了大量的GPU算力。

6个月后,系统上线了。但推荐效果令人失望——用户点击率只比随机推荐高一点点。

问题出在哪里?

调查后发现:训练数据是一团糟

  • 用户行为日志中,30%的数据因为埋点错误而不可用
  • 商品信息散落在5个不同的系统中,格式不统一
  • 标注数据由外包团队完成,质量参差不齐
  • 冷启动用户的数据几乎为零

团队花了6个月优化模型,但数据质量的问题让所有这些努力付诸东流。

这不是个案。2024年的一项研究显示,数据科学家80%的时间花在数据准备上,只有20%用于模型开发。


二、核心观点:数据工程正在变成Intent工程

让我说一个反直觉的事实:在AI时代,数据工程比软件工程更重要

传统的软件工程基于以下假设:

  • 代码是系统的核心资产
  • 数据是系统的输入/输出
  • 工程师的主要工作是写代码

但在AI-Native系统中,这些假设正在反转:

传统软件 AI-Native系统
代码定义行为 数据定义行为
工程师写代码 工程师准备数据
数据是副产品 数据是核心资产
逻辑是显式的 逻辑是隐式的(在模型中)

关键洞察:在AI系统中,数据就是Intent——数据告诉模型”世界是什么样的”、”什么是正确的行为”。高质量的数据就是高质量的Intent表达。


三、穿越周期:从代码到模型到数据

让我们看看AI系统的演化史。

2010年代,特征工程时代:工程师手动设计特征,然后用简单的模型(如逻辑回归、决策树)训练。模型的能力有限,但可解释性强。

2015年代,模型工程时代:深度学习兴起。特征不再需要人工设计,模型可以自动学习。工程师的工作变成了设计模型架构、调参。

2020年代,大模型时代:预训练大模型出现。模型不再需要从头训练,而是基于预训练模型微调。工程师的工作变成了Prompt工程、RAG设计。

2024年,数据工程时代:人们发现,大模型能力已经很强,瓶颈在于数据质量。如何准备高质量的训练数据、如何设计有效的微调数据、如何构建高质量的知识库——这些变成了核心问题。

时代 核心工作 关键技能 产出物
特征工程 特征设计 领域知识 特征集
模型工程 架构设计 ML/DL 模型
大模型 Prompt工程 语言理解 Prompt
数据工程 数据准备 数据质量 数据集

历史在押韵:每一次AI技术的跃迁,都重新定义了”什么是核心竞争力”。在AI-Native时代,核心竞争力是准备高质量数据的能力


四、反直觉洞察:数据-模型-应用的飞轮效应

我提出一个数据-模型-应用的飞轮模型

        高质量数据
             ↓
      更好的模型表现
             ↓
      更好的用户体验
             ↓
      更多用户参与
             ↓
      更多行为数据
             ↓
      (循环回到起点)

飞轮的关键

  1. 数据质量决定模型上限:垃圾进,垃圾出
  2. 模型表现决定用户体验:准确、有用的AI才能留住用户
  3. 用户体验决定用户参与:好的体验带来高频使用
  4. 用户参与产生数据:使用越多,数据越多
  5. 数据反馈提升质量:更多数据可以用于改进模型

正反馈循环:一旦飞轮开始转动,系统会自我强化。 负反馈陷阱:如果数据质量差,飞轮会反向运转——糟糕的体验→用户流失→数据减少→模型更差。


五、实战:数据工程的四层体系

第一层:数据收集(Data Collection)

目标:获取高质量、高相关性的原始数据

挑战

  • 数据源分散、格式不统一
  • 数据质量参差不齐
  • 隐私和合规要求

最佳实践

  • 埋点设计:在系统设计阶段就考虑数据收集
  • Schema治理:统一的数据Schema,从源头保证一致性
  • 实时vs批量:根据场景选择合适的收集方式

第二层:数据处理(Data Processing)

目标:将原始数据转化为可用的训练数据

关键步骤

  1. 清洗:去除噪声、错误、重复数据
  2. 转换:格式统一、特征提取
  3. 标注:为监督学习准备标签
  4. 验证:确保数据质量和分布

AI的角色

  • 自动检测数据异常
  • 辅助数据标注
  • 数据增强(生成合成数据)

第三层:数据管理(Data Management)

目标:建立可持续的数据资产管理体系

关键要素

  • 数据目录:元数据管理,数据可发现
  • 数据版本:训练数据的版本控制
  • 数据血缘:追踪数据的来源和变换
  • 数据质量监控:持续监控数据健康度

第四层:数据策略(Data Strategy)

目标:让数据成为战略资产

关键决策

  • 数据所有权:谁拥有数据?谁对数据质量负责?
  • 数据共享:如何在组织内共享数据?
  • 数据安全:如何在利用数据的同时保护隐私?
  • 数据变现:数据如何创造商业价值?

数据质量评估框架

维度 评估指标 目标值
完整性 缺失值比例 <5%
准确性 错误率 <1%
一致性 跨系统一致性 >95%
时效性 数据新鲜度 根据场景
相关性 与目标相关性

六、写在最后

代码会过时,模型会更新,但数据是永恒的。

在AI-Native时代,数据不是副产品,是核心资产。高质量的数据就是高质量的Intent,就是更好的模型,就是更好的用户体验。

优雅的技术组织不是拥有最好模型的组织,而是拥有最好数据的组织。

向死而生,不是悲观,是清醒。承认数据的重要性,然后建立系统性的数据工程能力。

这就是AI-Native软件工程的智慧。


延伸阅读

经典案例

  • Netflix的推荐系统数据工程
  • Google的数据中心运营
  • OpenAI的数据策略

技术实现

  • 数据质量工具(Great Expectations, dbt)
  • 数据 lineage(OpenLineage)
  • 数据版本控制(DVC)

学术与理论

  • Data-Centric AI
  • 数据质量管理
  • 数据治理框架

Published on 2026-03-09 深度阅读时间:约 11 分钟

AI-Native软件工程系列 #24 —— 探索AI时代的软件工程范式转移