本发明涉及数据质量检查,具体是指一种基于“一标五检”的数据质量检查方法。
背景技术:
1、数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。数据基础制度建设事关国家发展和安全大局。
2、数据能否发挥最大的效能,在于数据质量的高低。传统的数据质量检查方法,一般主要集中在基础校验和质量指标的抽象与检测上,无法系统完整高效完成对特定数据集的完整校验和高质量输出。
3、关于数据质量检查方法的发明专利,了解到相关信息如下:
4、一项发明专利提供了一种基于四个维度进行数据质量监测及评价的方法。这种方法涉及数据指标的统一编码管理、数据传输和整合过程中的监测指标集、基础校验、评估规则的生成以及考核报告的生成。该方法旨在对接入平台数据进行全面评估,提升数据质量。
5、另一项发明专利涉及结构化和半结构化数据的质量检测和控制领域,提供了一种数据质量检测的方法及装置。该方法包括定义基础规则、创建业务规则、创建检测任务、执行质量检测、进行质量评分及总体波动率分析等步骤。该装置包括存储器和处理器,用于执行上述数据质量检测的方法。
技术实现思路
1、在严监管的背景下,为监管部门提供高质量的数据是被监管市场主体的必备技能和重大义务。本发明的出发点在于,基于数据标准,为被监管市场主体提供一套机制完善、落地有效、成长性强的数据质量检查方法。
2、为解决上述问题,本发明所采用的技术方案为一种基于“一标五检”的数据质量检查方法,该方法包括以下步骤:
3、s1:数据标准与存储结构具像化,建立“一标”核心;
4、s2:通过数据检查流程完成“五检”。
5、作为本发明进一步的方案:s1步骤中,数据标准包括数据主题,数据实体、数据元和规范性引用文件等,是对特定领域的高度抽象,具备丰富的业务含义,一般不能直接用于数据存储。为了完成数据存储,需要进行有机结合,使两者相辅相成。
6、作为本发明进一步的方案:s2步骤中,数据进入数据流程后,依次进行重复检查、表内检查、人工复检、表间检查,流程结束后,进行横向检查。
7、作为本发明进一步的方案:所述具体的检查逻辑步骤如下:
8、1)重复检查:通过对数据项设置业务上可以唯一标识为一条数据的联合数据项,根据进入数据检查流程的先后顺序,采用后进者与先进者在数据集内进行比对,如果联合数据项完全一致,会被认为是重复,需要业务进行判断合理性,对重复数据进行确认.最终被标识为重复的数据不会进入结果数据集;
9、2)表内检查:根据数据元中的规则,对数据项进行一一排查,检查其合规性,同时对表内数据项之间的关联逻辑关系进行检查,完全通过进入下一个环节,若未通过,标识未通过字段;
10、3)人工复检:复检一般需要对数据质量负责的领导岗位进行,每一个填报人员对应于一个或多个对数据负责的领导,有领导完成对数据的复检作业,保证数据是真实业务的反应;
11、4)表间检查:特定的数据集是对特定场景的完整化数字肖像,表间往往存在着逻辑关系,通过表间数据项关联关系规则,完成表间检查;
12、5)横向检查:通过对数据项的统计规则的配置,在特定数据集中,对数据项进行统计分析,展示结果,供数据归口单位与其他类别的报送数据进行横向比较,判断是否存在差异以及差异原因。
13、1、本发明与现有技术相比优点在于:本方案的内核为数据标准,具备广泛的适应性;
14、2、本方案的作业对象是单条数据,保证数据从点到线到面都能得到有效地检查;
15、3、本方案从逻辑上和可执行上均进行了大量的研究和实践,切实具备可操作性,目前已有自研产品可落地。
1.一种基于“一标五检”的数据质量检查方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的一种基于“一标五检”的数据质量检查方法,其特征在于:所述s1步骤中,数据标准包括数据主题,数据实体、数据元和规范性引用文件等,是对特定领域的高度抽象,具备丰富的业务含义,一般不能直接用于数据存储。为了完成数据存储,需要进行有机结合,使两者相辅相成。
3.根据权利要求1所述的一种基于“一标五检”的数据质量检查方法,其特征在于:所述s2步骤中,数据进入数据流程后,依次进行重复检查、表内检查、人工复检、表间检查,流程结束后,进行横向检查。
4.根据权利要求3所述的一种基于“一标五检”的数据质量检查方法,其特征在于:所述具体的检查逻辑步骤如下:
