本发明涉及数据工程,具体为一种针对工业数据的数据挖掘分析方法及系统。
背景技术:
::1、随着企业数字化的普及和深入等,企业业务操作流程日益自动化,企业经营过程中产生了大量的数据,这些数据和由此产生的信息是企业的宝贵财富,它如实地记录着企业经营的本质状况。但是面对如此大量的数据,传统的数据分析方法,如数据检索、统计分析等只能获得数据的表层信息,不能获得其内在的、深层次的信息,管理者面临着数据丰富而知识贫乏的困境。如何从这些数据中挖掘出对企业经营决策有用的知识是非常重要的,数据挖掘便是为适应这种需要应运而生的。2、但是由于数据产生的源头种类繁多,而且大量不确定因素的半结构化问题和非结构化问题,很多因素由于没有历史数据和相应的统计资料,现有技术很难进行科学地计算和评估,因此需要应用其它技术和方法来提升企业数据价值挖掘工作。虽然目前有很多数据挖掘算法和案例,但是还是主要用于网络数据。这些算法在工业领域有明显的过拟合现象不能直接使用,需要作出一些优化调整。技术实现思路1、鉴于上述存在的问题,提出了本发明。2、因此,本发明解决的技术问题是:如何处理海量多源异构的数据,获得其内在的深层次的信息。3、为解决上述技术问题,本发明提供如下技术方案:一种针对工业数据的数据挖掘分析方法,包括:4、从数据源收集原始数据并进行清洗和转换;5、进行问题定义,创建数据挖掘库进行在线分析处理;6、构建数学挖掘模型,并对模型进行评估和优化;7、使用优化后的模型进行数据挖掘分析,得到最优决策。8、作为本发明所述的针对工业数据的数据挖掘分析方法的一种优选方案,其中:所述收集原始数据包括,数据的采集方式分为离线采集和实时采集,采集的数据统一汇聚到数据仓库;离线采集基于海豚调度整合datax服务,支持库表、接口、ftp文件、时序数据定义,csv文件导入、时序数据库数据导入形式的数据来源,支持结构化和半结构化数据之间的转换和映射,实时采集基于fink+kafka消息、cdc日志的模式实现;不同模式采集的不同类型的数据最终接入统一的数据仓库。9、作为本发明所述的针对工业数据的数据挖掘分析方法的一种优选方案,其中:所述进行清洗和转换包括,自动编码器由编码器和解码器组成,通过最小化重构误差来学习数据的表示形式;10、输入数据draw,经过编码器e和解码器d后,输出修复后的数据da公式表示为:11、da=d(e(draw))12、损失函数l表示为:13、l=||draw-d(e(draw))14、通过apache flink对实时数据进行处理和过滤;使用cep引擎检测实时数据流中的复杂事件模式,设cep规则为φcep,处理后的数据集合dcep表示为:15、dcep={si∈dstream|φcep(si)}16、检测温度和压力同时异常的事件模式表示为:17、φcep(si)=(si[temp]>threshold1)∧(si[pres]>threshold2)18、对检测到的事件数据,使用自动编码器进行实时修复:19、s′i=d(e(si))20、自动检测数据中的异常值和缺失值,并进行修复;对于缺失值,自动编码器会在重构过程中填补缺失值;对于异常值,自动编码器会将其重构为正常值。21、作为本发明所述的针对工业数据的数据挖掘分析方法的一种优选方案,其中:所述创建数据挖掘库包括,使用明细模型通过细粒度数据分析,记录详细数据;数据记录公式表示为:22、detail_model={d1,d2,...,dn}23、其中,di表示第i条详细数据记录;存储公式表示为:24、25、其中,size(di)表示第i条数据记录的存储大小;26、使用聚合模型汇总数据分析,将数据按维度进行聚合处理,数据聚合公式表示为:27、aggregate_model={α1,a2,...,am}28、其中,ai表示第i个聚合数据记录;存储公式表示为:29、30、其中,size(ai)表示第i条聚合数据记录的存储大小;31、使用唯一模型进行唯一性数据管理,公式表示为:32、unique_model={u1,u2,...,up}33、其中,ui表示第i条唯一数据记录;唯一性约束公式表示为:34、35、该公式确保每条唯一数据记录在集合中不重复;存储公式:36、37、其中,size(ui)表示第i条唯一数据记录的存储大小;根据数据特征选择适当的数据模型。38、作为本发明所述的针对工业数据的数据挖掘分析方法的一种优选方案,其中:所述在线分析处理包括,建立一系列的假设,通过在线分析处理olap证实或推翻假设得到数据分析结论;39、从数据仓库加载数据至olap系统,数据加载公式表示为:40、olap_data(t)=load(warehouse_data(t))41、其中,olap_data(t)表示在时间t加载到olap系统中的数据;warehouse_data(t)表示在时间t存储在数据仓库中的数据;load表示从数据仓库加载数据的操作;构建星型或雪花型数据模型,定义事实表和维度表;42、对数据进行高级聚合操作,高级数据聚合公式表示为:43、44、w表示权重向量,表示各数据点的权重;x表示数据值向量,表示各数据点的值;wi表示第i个数据点的权重;xi表示第i个数据点的值;45、46、其中,μw表示加权平均值;47、多维数组聚合公式表示为:48、49、其中,ai,j,k表示聚合后的多维数组中第(i,j,k)个元素;dl,m,n表示原始数据数组中第(l,m,n)个元素;fi,j,k(l,m,n)表示聚合函数,定义将原始数据聚合到新的多维数组中;l,m,n表示原始数据数组的维度大小;50、在不同维度上进行数据切片和切块操作,支持复杂查询;切片公式表示为:51、slice(d,d,v)={r|r∈d∧r[d]=v}52、其中,d表示数据集;d表示要切片的维度;v表示切片维度的特定值;r表示满足条件的数据记录;53、切块公式表示为:54、55、其中,{d1,d2,...,dk}表示要切块的多个维度;{v1,v2,...,vk}表示切块维度的特定值;56、支持数据的钻取和上卷操作,进行不同层次的数据分析;钻取公式表示为:57、drill_down(d,h,l)={r|r∈d∧r[h]∈l}58、其中,h表示高层次维度;l表示低层次维度集合。59、作为本发明所述的针对工业数据的数据挖掘分析方法的一种优选方案,其中:所述构建数学挖掘模型包括,利用高级特征工程技术提取关键特征,特征工程公式表示为:60、featurei=f(t,s,x)61、其中,t表示时间序列特征,s表示空间特征,x表示其他特征,f表示特征提取函数;深度学习模型公式表示为:62、ht=o(wh·ht-1+wx·xt+bh)63、ct=f(wc·ct-1+wic·xt+bc)64、yt=wy·ht+by65、其中,ht表示当前时间步的隐状态;ct表示细胞状态;xt表示输入;wh、wx、wc、wic、wy表示权重矩阵,bh、bc、by表示偏置,σ表示激活函数;66、损失函数公式表示为:67、68、其中,yi表示真实值,表示预测值,θ表示模型参数。69、作为本发明所述的针对工业数据的数据挖掘分析方法的一种优选方案,其中:所述数据挖掘分析包括,计算相对偏离度和加权偏离度;70、δi表示第i个数据点的相对偏离度;71、72、其中,xi表示第i个时间点的实际观测值;表示第i个时间点的预测值;设wi表示第i个数据点的加权偏离度,通过sigmoid函数和绝对误差相结合进行加权;73、74、计算异常评分,公式表示为:75、76、m表示数据点的总数量;h表示高偏离度的设定值;若偏离度超过h,则认为该数据点可能异常;(wi>h)表示指示函数;当加权偏离度wi超过设定值h时,该函数值为1,否则为0;77、threshold表示设定的异常比例阈值,当偏离度大于h时,进行计算和判断;当as>threshold时,则判定为数据异常;当as≤threshold时,则调整预测模型参数和偏离度设定值,并重新进行异常判断。78、一种采用本发明任一所述方法的针对工业数据的数据挖掘分析系统,包括:79、数据收集与预处理模块,使用kafka和flink进行数据采集和实时处理,进行数据清洗和标准化;80、数据挖掘库与在线分析,创建数据挖掘库,使用doris进行数据存储和olap分析;81、数学挖掘模块,构建lstm模型,使用贝叶斯优化进行模型参数调优;82、数据挖掘与决策模块,使用优化后的模型进行数据挖掘分析;使用tableau进行数据可视化和决策支持。83、一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现本发明中任一项所述的方法的步骤。84、一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现本发明中任一项所述的方法的步骤。85、本发明的有益效果:1.为用户提供可视化建模界面,预置大量数据处理及算子节点,通过拖拽的方式实现流式建模,方便用户快速构建数据挖掘模型。建模以托拉拽为主,大幅度降低建模工作参与门槛。2.数据挖掘结果往往不容易被理解,与其他可视化功能无缝集成,将挖掘结果通过多样丰富的可视化手段进行分析展现。3.同时兼容小厂模式和云边模式,多种开发模式,对开发人员技能水平要求降低,在不同场景下的具备高度灵活性和可用性。计算引擎适用海量数据的在线可视化分析。4.在线数据分析和机器学习(ml)有机结合、流程优化,使数据管理和分析自动化,从而更有效地进行数据分析。减少了当前依赖it处理所带来的效率问题和口径偏差,让用户获得更深入的洞察力。当前第1页12当前第1页12
技术特征:1.一种针对工业数据的数据挖掘分析方法,其特征在于,包括:
2.如权利要求1所述的针对工业数据的数据挖掘分析方法,其特征在于:所述收集原始数据包括,数据的采集方式分为离线采集和实时采集,采集的数据统一汇聚到数据仓库;离线采集基于海豚调度整合datax服务,支持库表、接口、ftp文件、时序数据定义,csv文件导入、时序数据库数据导入形式的数据来源,支持结构化和半结构化数据之间的转换和映射,实时采集基于fink+kafka消息、cdc日志的模式实现;不同模式采集的不同类型的数据最终接入统一的数据仓库。
3.如权利要求2所述的针对工业数据的数据挖掘分析方法,其特征在于:所述进行清洗和转换包括,自动编码器由编码器和解码器组成,通过最小化重构误差来学习数据的表示形式;
4.如权利要求3所述的针对工业数据的数据挖掘分析方法,其特征在于:所述创建数据挖掘库包括,使用明细模型通过细粒度数据分析,记录详细数据;数据记录公式表示为:
5.如权利要求4所述的针对工业数据的数据挖掘分析方法,其特征在于:所述在线分析处理包括,建立一系列的假设,通过在线分析处理olap证实或推翻假设得到数据分析结论;
6.如权利要求5所述的针对工业数据的数据挖掘分析方法,其特征在于:所述构建数学挖掘模型包括,利用高级特征工程技术提取关键特征,特征工程公式表示为:
7.如权利要求6所述的针对工业数据的数据挖掘分析方法,其特征在于:所述数据挖掘分析包括,计算相对偏离度和加权偏离度;
8.一种采用如权利要求1-7任一所述方法的针对工业数据的数据挖掘分析系统,其特征在于:
9.一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现针对工业数据的数据挖掘分析方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现针对工业数据的数据挖掘分析方法的步骤。
技术总结本发明公开了一种针对工业数据的数据挖掘分析方法及系统,包括:从数据源收集原始数据并进行清洗和转换;进行问题定义,创建数据挖掘库进行在线分析处理;构建数学挖掘模型,并对模型进行评估和优化;使用优化后的模型进行数据挖掘分析,得到最优决策。本发明预置大量数据处理及算子节点,通过拖拽的方式实现流式建模,方便用户快速构建数据挖掘模型。将挖掘结果通过多样丰富的可视化手段进行分析展现。在线数据分析和机器学习有机结合、流程优化,使数据管理和分析自动化,从而更有效地进行数据分析。
技术研发人员:魏小庆,袁存发,陆文迪,汤幸福,陈松,郑豹
受保护的技术使用者:朗坤智慧科技股份有限公司
技术研发日:技术公布日:2024/12/5