数据即Intent:当数据成为新的编程语言
*“2024年,某AI团队发现了一个令人震惊的事实:他们花了6个月优化模型架构,却只提升了3%的准确率。而另一支团队,仅仅通过清理和重新标注训练数据,就在2周内提升了15%的准确率。不是模型不重要,而是数据更重要。” *
一、那个被忽视的”数据工程”
让我们从一个行业的盲点开始。
某电商公司决定构建一个推荐系统。他们聘请了顶尖的机器学习工程师,使用了最先进的深度学习模型,购买了大量的GPU算力。
6个月后,系统上线了。但推荐效果令人失望——用户点击率只比随机推荐高一点点。
问题出在哪里?
调查后发现:训练数据是一团糟。
- 用户行为日志中,30%的数据因为埋点错误而不可用
- 商品信息散落在5个不同的系统中,格式不统一
- 标注数据由外包团队完成,质量参差不齐
- 冷启动用户的数据几乎为零
团队花了6个月优化模型,但数据质量的问题让所有这些努力付诸东流。
这不是个案。2024年的一项研究显示,数据科学家80%的时间花在数据准备上,只有20%用于模型开发。
二、核心观点:数据工程正在变成Intent工程
让我说一个反直觉的事实:在AI时代,数据工程比软件工程更重要。
传统的软件工程基于以下假设:
- 代码是系统的核心资产
- 数据是系统的输入/输出
- 工程师的主要工作是写代码
但在AI-Native系统中,这些假设正在反转:
| 传统软件 | AI-Native系统 |
|---|---|
| 代码定义行为 | 数据定义行为 |
| 工程师写代码 | 工程师准备数据 |
| 数据是副产品 | 数据是核心资产 |
| 逻辑是显式的 | 逻辑是隐式的(在模型中) |
关键洞察:在AI系统中,数据就是Intent——数据告诉模型”世界是什么样的”、”什么是正确的行为”。高质量的数据就是高质量的Intent表达。
三、穿越周期:从代码到模型到数据
让我们看看AI系统的演化史。
2010年代,特征工程时代:工程师手动设计特征,然后用简单的模型(如逻辑回归、决策树)训练。模型的能力有限,但可解释性强。
2015年代,模型工程时代:深度学习兴起。特征不再需要人工设计,模型可以自动学习。工程师的工作变成了设计模型架构、调参。
2020年代,大模型时代:预训练大模型出现。模型不再需要从头训练,而是基于预训练模型微调。工程师的工作变成了Prompt工程、RAG设计。
2024年,数据工程时代:人们发现,大模型能力已经很强,瓶颈在于数据质量。如何准备高质量的训练数据、如何设计有效的微调数据、如何构建高质量的知识库——这些变成了核心问题。
| 时代 | 核心工作 | 关键技能 | 产出物 |
|---|---|---|---|
| 特征工程 | 特征设计 | 领域知识 | 特征集 |
| 模型工程 | 架构设计 | ML/DL | 模型 |
| 大模型 | Prompt工程 | 语言理解 | Prompt |
| 数据工程 | 数据准备 | 数据质量 | 数据集 |
历史在押韵:每一次AI技术的跃迁,都重新定义了”什么是核心竞争力”。在AI-Native时代,核心竞争力是准备高质量数据的能力。
四、反直觉洞察:数据-模型-应用的飞轮效应
我提出一个数据-模型-应用的飞轮模型:
高质量数据
↓
更好的模型表现
↓
更好的用户体验
↓
更多用户参与
↓
更多行为数据
↓
(循环回到起点)
飞轮的关键:
- 数据质量决定模型上限:垃圾进,垃圾出
- 模型表现决定用户体验:准确、有用的AI才能留住用户
- 用户体验决定用户参与:好的体验带来高频使用
- 用户参与产生数据:使用越多,数据越多
- 数据反馈提升质量:更多数据可以用于改进模型
正反馈循环:一旦飞轮开始转动,系统会自我强化。 负反馈陷阱:如果数据质量差,飞轮会反向运转——糟糕的体验→用户流失→数据减少→模型更差。
五、实战:数据工程的四层体系
第一层:数据收集(Data Collection)
目标:获取高质量、高相关性的原始数据
挑战:
- 数据源分散、格式不统一
- 数据质量参差不齐
- 隐私和合规要求
最佳实践:
- 埋点设计:在系统设计阶段就考虑数据收集
- Schema治理:统一的数据Schema,从源头保证一致性
- 实时vs批量:根据场景选择合适的收集方式
第二层:数据处理(Data Processing)
目标:将原始数据转化为可用的训练数据
关键步骤:
- 清洗:去除噪声、错误、重复数据
- 转换:格式统一、特征提取
- 标注:为监督学习准备标签
- 验证:确保数据质量和分布
AI的角色:
- 自动检测数据异常
- 辅助数据标注
- 数据增强(生成合成数据)
第三层:数据管理(Data Management)
目标:建立可持续的数据资产管理体系
关键要素:
- 数据目录:元数据管理,数据可发现
- 数据版本:训练数据的版本控制
- 数据血缘:追踪数据的来源和变换
- 数据质量监控:持续监控数据健康度
第四层:数据策略(Data Strategy)
目标:让数据成为战略资产
关键决策:
- 数据所有权:谁拥有数据?谁对数据质量负责?
- 数据共享:如何在组织内共享数据?
- 数据安全:如何在利用数据的同时保护隐私?
- 数据变现:数据如何创造商业价值?
数据质量评估框架
| 维度 | 评估指标 | 目标值 |
|---|---|---|
| 完整性 | 缺失值比例 | <5% |
| 准确性 | 错误率 | <1% |
| 一致性 | 跨系统一致性 | >95% |
| 时效性 | 数据新鲜度 | 根据场景 |
| 相关性 | 与目标相关性 | 高 |
六、写在最后
代码会过时,模型会更新,但数据是永恒的。
在AI-Native时代,数据不是副产品,是核心资产。高质量的数据就是高质量的Intent,就是更好的模型,就是更好的用户体验。
优雅的技术组织不是拥有最好模型的组织,而是拥有最好数据的组织。
向死而生,不是悲观,是清醒。承认数据的重要性,然后建立系统性的数据工程能力。
这就是AI-Native软件工程的智慧。
延伸阅读
经典案例
- Netflix的推荐系统数据工程
- Google的数据中心运营
- OpenAI的数据策略
技术实现
- 数据质量工具(Great Expectations, dbt)
- 数据 lineage(OpenLineage)
- 数据版本控制(DVC)
学术与理论
- Data-Centric AI
- 数据质量管理
- 数据治理框架
Published on 2026-03-09 深度阅读时间:约 11 分钟
AI-Native软件工程系列 #24 —— 探索AI时代的软件工程范式转移
💬 评论
💡 使用 GitHub 账号登录 即可参与讨论