数据即Intent：当数据成为新的编程语言

*“2024年，某AI团队发现了一个令人震惊的事实：他们花了6个月优化模型架构，却只提升了3%的准确率。而另一支团队，仅仅通过清理和重新标注训练数据，就在2周内提升了15%的准确率。不是模型不重要，而是数据更重要。” *

一、那个被忽视的”数据工程”

让我们从一个行业的盲点开始。

某电商公司决定构建一个推荐系统。他们聘请了顶尖的机器学习工程师，使用了最先进的深度学习模型，购买了大量的GPU算力。

6个月后，系统上线了。但推荐效果令人失望——用户点击率只比随机推荐高一点点。

问题出在哪里？

调查后发现：训练数据是一团糟。

用户行为日志中，30%的数据因为埋点错误而不可用
商品信息散落在5个不同的系统中，格式不统一
标注数据由外包团队完成，质量参差不齐
冷启动用户的数据几乎为零

团队花了6个月优化模型，但数据质量的问题让所有这些努力付诸东流。

这不是个案。2024年的一项研究显示，数据科学家80%的时间花在数据准备上，只有20%用于模型开发。

二、核心观点：数据工程正在变成Intent工程

让我说一个反直觉的事实：在AI时代，数据工程比软件工程更重要。

传统的软件工程基于以下假设：

代码是系统的核心资产
数据是系统的输入/输出
工程师的主要工作是写代码

但在AI-Native系统中，这些假设正在反转：

传统软件	AI-Native系统
代码定义行为	数据定义行为
工程师写代码	工程师准备数据
数据是副产品	数据是核心资产
逻辑是显式的	逻辑是隐式的（在模型中）

关键洞察：在AI系统中，数据就是Intent——数据告诉模型”世界是什么样的”、”什么是正确的行为”。高质量的数据就是高质量的Intent表达。

三、穿越周期：从代码到模型到数据

让我们看看AI系统的演化史。

2010年代，特征工程时代：工程师手动设计特征，然后用简单的模型（如逻辑回归、决策树）训练。模型的能力有限，但可解释性强。

2015年代，模型工程时代：深度学习兴起。特征不再需要人工设计，模型可以自动学习。工程师的工作变成了设计模型架构、调参。

2020年代，大模型时代：预训练大模型出现。模型不再需要从头训练，而是基于预训练模型微调。工程师的工作变成了Prompt工程、RAG设计。

2024年，数据工程时代：人们发现，大模型能力已经很强，瓶颈在于数据质量。如何准备高质量的训练数据、如何设计有效的微调数据、如何构建高质量的知识库——这些变成了核心问题。

时代	核心工作	关键技能	产出物
特征工程	特征设计	领域知识	特征集
模型工程	架构设计	ML/DL	模型
大模型	Prompt工程	语言理解	Prompt
数据工程	数据准备	数据质量	数据集

历史在押韵：每一次AI技术的跃迁，都重新定义了”什么是核心竞争力”。在AI-Native时代，核心竞争力是准备高质量数据的能力。

四、反直觉洞察：数据-模型-应用的飞轮效应

我提出一个数据-模型-应用的飞轮模型：

        高质量数据
             ↓
      更好的模型表现
             ↓
      更好的用户体验
             ↓
      更多用户参与
             ↓
      更多行为数据
             ↓
      （循环回到起点）

飞轮的关键：

数据质量决定模型上限：垃圾进，垃圾出
模型表现决定用户体验：准确、有用的AI才能留住用户
用户体验决定用户参与：好的体验带来高频使用
用户参与产生数据：使用越多，数据越多
数据反馈提升质量：更多数据可以用于改进模型

正反馈循环：一旦飞轮开始转动，系统会自我强化。 负反馈陷阱：如果数据质量差，飞轮会反向运转——糟糕的体验→用户流失→数据减少→模型更差。

五、实战：数据工程的四层体系

第一层：数据收集（Data Collection）

目标：获取高质量、高相关性的原始数据

挑战：

数据源分散、格式不统一
数据质量参差不齐
隐私和合规要求

最佳实践：

埋点设计：在系统设计阶段就考虑数据收集
Schema治理：统一的数据Schema，从源头保证一致性
实时vs批量：根据场景选择合适的收集方式

第二层：数据处理（Data Processing）

目标：将原始数据转化为可用的训练数据

关键步骤：

清洗：去除噪声、错误、重复数据
转换：格式统一、特征提取
标注：为监督学习准备标签
验证：确保数据质量和分布

AI的角色：

自动检测数据异常
辅助数据标注
数据增强（生成合成数据）

第三层：数据管理（Data Management）

目标：建立可持续的数据资产管理体系

关键要素：

数据目录：元数据管理，数据可发现
数据版本：训练数据的版本控制
数据血缘：追踪数据的来源和变换
数据质量监控：持续监控数据健康度

第四层：数据策略（Data Strategy）

目标：让数据成为战略资产

关键决策：

数据所有权：谁拥有数据？谁对数据质量负责？
数据共享：如何在组织内共享数据？
数据安全：如何在利用数据的同时保护隐私？
数据变现：数据如何创造商业价值？

数据质量评估框架

维度	评估指标	目标值
完整性	缺失值比例	<5%
准确性	错误率	<1%
一致性	跨系统一致性	>95%
时效性	数据新鲜度	根据场景
相关性	与目标相关性	高

六、写在最后

代码会过时，模型会更新，但数据是永恒的。

在AI-Native时代，数据不是副产品，是核心资产。高质量的数据就是高质量的Intent，就是更好的模型，就是更好的用户体验。

优雅的技术组织不是拥有最好模型的组织，而是拥有最好数据的组织。

向死而生，不是悲观，是清醒。承认数据的重要性，然后建立系统性的数据工程能力。

这就是AI-Native软件工程的智慧。

数据即Intent：当数据成为新的编程语言

一、那个被忽视的”数据工程”

二、核心观点：数据工程正在变成Intent工程

三、穿越周期：从代码到模型到数据

四、反直觉洞察：数据-模型-应用的飞轮效应

五、实战：数据工程的四层体系

第一层：数据收集（Data Collection）

第二层：数据处理（Data Processing）

第三层：数据管理（Data Management）

第四层：数据策略（Data Strategy）

数据质量评估框架

六、写在最后

延伸阅读

💬 评论

一、那个被忽视的”数据工程”

二、核心观点：数据工程正在变成Intent工程

三、穿越周期：从代码到模型到数据

四、反直觉洞察：数据-模型-应用的飞轮效应

五、实战：数据工程的四层体系

第一层：数据收集（Data Collection）

第二层：数据处理（Data Processing）

第三层：数据管理（Data Management）

第四层：数据策略（Data Strategy）

数据质量评估框架

六、写在最后

延伸阅读

🎨 生成分享卡片

📖 相关阅读

💬 评论