数据治理中的存量与增量关系：先清理还是先管

当前位置：主页 > 成功案例 > 数据治理 >

项目简介

访问网站
访问手机网站

项目服务

提交需求
策划设计
技术开发
维护修改
售后服务

一个反复出现的僵局

数据治理项目启动时，经常会卡在一个问题上：历史数据太乱了，要先清理。清理需要时间，业务不能等。先管控新数据，老数据的问题依然存在，新老数据口径不一致，报表还是对不上。先清理老数据，项目周期拉长，管理层等不及。

于是陷入僵局。清理派说“不清理干净，新数据进来还是脏的”。管控派说“不先堵住入口，清理完还会再脏”。双方都有道理，但问题不是二选一。

存量是历史积累的问题，增量是未来新增的数据。存量清理解决过去欠的账，增量管控防止未来欠新账。两个动作不是先后关系，是并行关系。先管控增量，再清理存量。管控增量的优先级高于清理存量。入口不堵住，清理速度永远赶不上污染速度。

存量清理的成本曲线

数据存量的清理成本随时间推移呈上升趋势。问题数据在系统中存在的时间越长，被引用的次数越多，依赖它的下游系统越多，清理时需要同步修改的范围越大。一条重复的物料编码，存在一周就合并，只需要修改当周的几个订单。存在一年再合并，需要修改这一年里所有引用过该编码的BOM、订单、库存记录、财务凭证。清理成本随时间指数级增长。存量数据的价值却在随时间递减。三年前的订单明细、五年前的客户地址变更记录，清理或不清理，对当前业务决策的影响微乎其微。存量的清理价值与清理成本之间有一个交叉点。超过这个时间点的存量数据，清理投入大于产出，不值得优先处理。

存量的清理策略不是“全部清理”或“全不清理”，是按时间窗口和价值排序。高价值、高使用频率的存量数据优先清理。低价值、长期未被引用的数据优先归档或直接冻结，不投入清理资源。最近六个月有采购记录的物料，编码必须清洗干净，影响采购效率。超过两年没有采购记录的物料，暂时冻结，业务有需要时再激活。

增量管控的实施门槛

增量管控的技术门槛高于存量清理。存量清理可以在系统外通过Excel或ETL工具批量处理，增量管控需要嵌入业务系统，在数据录入环节设置校验和拦截。增量管控落地需要满足几个条件。

编码规则必须明确到可配置的程度。规则不是“按规范填写”这种模糊描述，而是可量化的格式要求。物料编码第1-2位是大类、第3-4位是中类、第5-8位是流水号，校验位由前8位计算得出。规则明确，系统才能配置校验。规则不明确，系统无法判断用户填的对不对。

审批流程必须配置在系统中，不是依赖邮件流转。新编码申请提交后，系统自动推送到审批人。审批通过，编码自动生效。审批驳回，申请单退回申请人。流程在系统中闭环，不依赖人工催办。系统里的审批流程和制度文档中的流程必须一致，不能出现文档更新了、系统没同步的情况。

校验规则必须前置到录入环节。用户在提交申请之前，系统自动执行格式校验、重复校验、必填校验。不合规的数据在源头就被拦住，不给流入数据库的机会。事后清洗的成本高于事前拦截，增量管控的原则是能拦尽拦。宁可用户在录入时多花一分钟确认，不在系统运行一年后用一周时间做数据清洗。

存量与增量的边界划分

存量和增量的边界不是按时间一刀切。不是“2026年1月1日之前的数据是存量，之后的是增量”。存量和增量的划分依据是数据的活跃度和被引用频率。

刚迁入系统的历史数据，如果一直没有被业务引用，虽然在时间上是“存量”，但可以按“冷数据”处理，不需要优先清理。新产生但低频使用的数据，虽然时间是“增量”，但可以按低优先级处理，管控力度可以适当放宽。存量和增量的处理策略取决于数据的业务价值，不是取决于数据产生的时间。

活跃数据的管控力度必须从严，不论它是存量还是增量。客户主数据中，贡献80%销售额的前20%客户，无论数据是十年前迁入的还是昨天新创建的，必须保证质量。低活数据的管控力度可以适当放宽，按需清洗、按需补充，不投入固定的治理资源。

存量和增量的边界划分需要定期复审。过去六个月没有业务引用的数据，从“活跃”划入“非活跃”，降低监控频率。过去六个月使用频率显著上升的数据，从“非活跃”划入“活跃”，提高质量要求。静态的边界划分策略会失效，业务热点的转移决定了数据治理的优先级也要跟着转移。

新易编码中的存量与增量管理

编码管理场景中，存量和增量的划分相对清晰。新编码申请产生的数据是增量，历史导入的编码数据是存量。新易编码支持两种处理策略的分开配置。

增量管控通过编码申请流程实现。用户提交申请时，系统强制查重，重复的不让申请。必填字段缺一不可，格式校验不通过无法提交。审批流程配置在系统中，审批通过前编码不生效。增量管控是事前的、强制性的，不给数据污染留机会。

存量清理通过历史数据清洗模块实现。系统按相似度算法将可能重复的物料编码分组，用户确认后合并。属性缺失的记录批量补全或标记。未使用的僵尸编码批量冻结。存量清理是事后的、批量性的，处理的是历史欠账。

存量和增量的交界处需要映射机制。历史编码和新增编码之间需要建立对应关系，保证报表查询时能跨时间段汇总。新易编码的编码映射表自动维护新旧编码的关联，历史订单中的旧编码在查询时自动映射到新编码。存量清理和增量管控之间的衔接问题，通过编码映射来解决，而不是要求所有历史数据都改写成新编码。

存量数据和增量数据的关系，不是“先A后B”，也不是“二选一”。增量管控必须优先于存量清理。入口不堵住，清理速度永远赶不上污染速度。高活跃度的存量数据必须优先清理，低活跃度的存量数据可以暂缓或归档。存量和增量的边界不是按时间划分，按业务价值划分。

在物料编码管理这个具体场景中，存量的清洗和增量的管控可以并行推进。先通过系统配置把增量管控起来，防止新欠账。再利用系统的查重和质量看板功能，分批次清理高价值的存量数据。增量管控的收益体现在未来数据质量的稳定，存量清理的收益体现在当前报表准确度的提升。两个收益都可以量化，都可以向管理层汇报。

数据治理的僵局不在于存量与增量谁先谁后，而在于两个动作都没有开始做。先动增量管控，系统配置一周内可以完成。增量稳住了，存量分批次清理，半年内把高活跃度的核心数据清理干净。增量管控先行，数据治理就不会永远卡在起跑线上。数据治理的成效是在增量管控的初期就能看到效果的，存量的清理则是逐步推进的过程。两者并行推进，治理的节奏才能跑起来。

如果您有物料编码相关的问题，欢迎咨询新易物料编码

（部分内容来源于网络，如有侵权请联系删除）

数据治理中的“问题数据”归因：是人的问题还

数据治理中的职责交叉问题：当三个部门都对同