一个反复出现的僵局
数据治理项目启动时,经常会卡在一个问题上:历史数据太乱了,要先清理。清理需要时间,业务不能等。先管控新数据,老数据的问题依然存在,新老数据口径不一致,报表还是对不上。先清理老数据,项目周期拉长,管理层等不及。
于是陷入僵局。清理派说“不清理干净,新数据进来还是脏的”。管控派说“不先堵住入口,清理完还会再脏”。双方都有道理,但问题不是二选一。
存量是历史积累的问题,增量是未来新增的数据。存量清理解决过去欠的账,增量管控防止未来欠新账。两个动作不是先后关系,是并行关系。先管控增量,再清理存量。管控增量的优先级高于清理存量。入口不堵住,清理速度永远赶不上污染速度。
存量清理的成本曲线
数据存量的清理成本随时间推移呈上升趋势。问题数据在系统中存在的时间越长,被引用的次数越多,依赖它的下游系统越多,清理时需要同步修改的范围越大。一条重复的物料编码,存在一周就合并,只需要修改当周的几个订单。存在一年再合并,需要修改这一年里所有引用过该编码的BOM、订单、库存记录、财务凭证。清理成本随时间指数级增长。存量数据的价值却在随时间递减。三年前的订单明细、五年前的客户地址变更记录,清理或不清理,对当前业务决策的影响微乎其微。存量的清理价值与清理成本之间有一个交叉点。超过这个时间点的存量数据,清理投入大于产出,不值得优先处理。
存量的清理策略不是“全部清理”或“全不清理”,是按时间窗口和价值排序。高价值、高使用频率的存量数据优先清理。低价值、长期未被引用的数据优先归档或直接冻结,不投入清理资源。最近六个月有采购记录的物料,编码必须清洗干净,影响采购效率。超过两年没有采购记录的物料,暂时冻结,业务有需要时再激活。
增量管控的实施门槛
增量管控的技术门槛高于存量清理。存量清理可以在系统外通过Excel或ETL工具批量处理,增量管控需要嵌入业务系统,在数据录入环节设置校验和拦截。增量管控落地需要满足几个条件。
编码规则必须明确到可配置的程度。规则不是“按规范填写”这种模糊描述,而是可量化的格式要求。物料编码第1-2位是大类、第3-4位是中类、第5-8位是流水号,校验位由前8位计算得出。规则明确,系统才能配置校验。规则不明确,系统无法判断用户填的对不对。
审批流程必须配置在系统中,不是依赖邮件流转。新编码申请提交后,系统自动推送到审批人。审批通过,编码自动生效。审批驳回,申请单退回申请人。流程在系统中闭环,不依赖人工催办。系统里的审批流程和制度文档中的流程必须一致,不能出现文档更新了、系统没同步的情况。
校验规则必须前置到录入环节。用户在提交申请之前,系统自动执行格式校验、重复校验、必填校验。不合规的数据在源头就被拦住,不给流入数据库的机会。事后清洗的成本高于事前拦截,增量管控的原则是能拦尽拦。宁可用户在录入时多花一分钟确认,不在系统运行一年后用一周时间做数据清洗。
存量与增量的边界划分
存量和增量的边界不是按时间一刀切。不是“2026年1月1日之前的数据是存量,之后的是增量”。存量和增量的划分依据是数据的活跃度和被引用频率。
刚迁入系统的历史数据,如果一直没有被业务引用,虽然在时间上是“存量”,但可以按“冷数据”处理,不需要优先清理。新产生但低频使用的数据,虽然时间是“增量”,但可以按低优先级处理,管控力度可以适当放宽。存量和增量的处理策略取决于数据的业务价值,不是取决于数据产生的时间。
活跃数据的管控力度必须从严,不论它是存量还是增量。客户主数据中,贡献80%销售额的前20%客户,无论数据是十年前迁入的还是昨天新创建的,必须保证质量。低活数据的管控力度可以适当放宽,按需清洗、按需补充,不投入固定的治理资源。
存量和增量的边界划分需要定期复审。过去六个月没有业务引用的数据,从“活跃”划入“非活跃”,降低监控频率。过去六个月使用频率显著上升的数据,从“非活跃”划入“活跃”,提高质量要求。静态的边界划分策略会失效,业务热点的转移决定了数据治理的优先级也要跟着转移。
新易编码中的存量与增量管理
编码管理场景中,存量和增量的划分相对清晰。新编码申请产生的数据是增量,历史导入的编码数据是存量。新易编码支持两种处理策略的分开配置。
增量管控通过编码申请流程实现。用户提交申请时,系统强制查重,重复的不让申请。必填字段缺一不可,格式校验不通过无法提交。审批流程配置在系统中,审批通过前编码不生效。增量管控是事前的、强制性的,不给数据污染留机会。
存量清理通过历史数据清洗模块实现。系统按相似度算法将可能重复的物料编码分组,用户确认后合并。属性缺失的记录批量补全或标记。未使用的僵尸编码批量冻结。存量清理是事后的、批量性的,处理的是历史欠账。
存量和增量的交界处需要映射机制。历史编码和新增编码之间需要建立对应关系,保证报表查询时能跨时间段汇总。新易编码的编码映射表自动维护新旧编码的关联,历史订单中的旧编码在查询时自动映射到新编码。存量清理和增量管控之间的衔接问题,通过编码映射来解决,而不是要求所有历史数据都改写成新编码。
存量数据和增量数据的关系,不是“先A后B”,也不是“二选一”。增量管控必须优先于存量清理。入口不堵住,清理速度永远赶不上污染速度。高活跃度的存量数据必须优先清理,低活跃度的存量数据可以暂缓或归档。存量和增量的边界不是按时间划分,按业务价值划分。
在物料编码管理这个具体场景中,存量的清洗和增量的管控可以并行推进。先通过系统配置把增量管控起来,防止新欠账。再利用系统的查重和质量看板功能,分批次清理高价值的存量数据。增量管控的收益体现在未来数据质量的稳定,存量清理的收益体现在当前报表准确度的提升。两个收益都可以量化,都可以向管理层汇报。
数据治理的僵局不在于存量与增量谁先谁后,而在于两个动作都没有开始做。先动增量管控,系统配置一周内可以完成。增量稳住了,存量分批次清理,半年内把高活跃度的核心数据清理干净。增量管控先行,数据治理就不会永远卡在起跑线上。数据治理的成效是在增量管控的初期就能看到效果的,存量的清理则是逐步推进的过程。两者并行推进,治理的节奏才能跑起来。
如果您有物料编码相关的问题,欢迎咨询新易物料编码
(部分内容来源于网络,如有侵权请联系删除)

上一篇
没有了