一种生态环境监测数据清洗方法及系统与流程

专利查询2月前  26


本发明属于数据处理,具体涉及一种生态环境监测数据清洗方法及系统。


背景技术:

1、随着生态环境保护意识的增强,对环境数据的监测和分析需求日益增长。现有的监测数据常受到传感器误差、传输噪声和环境干扰等因素的影响,导致数据质量下降,影响分析结果的准确性。因此,使用一种有效的监测数据清洗方法和系统对于提高环境监测质量具有重要意义。

2、类似的现有技术有公开号为cn114579548a的中国专利申请,公开了一种基于物联网的数据采集用数据清洗系统,涉及数据处理技术领域,解决了现有技术在数据清洗过程中,无法按照要求对已经清洗传感器数据进行数据清洗,导致数据清洗效果不佳,清洗效率低下的技术问题;该发明包括数据服务器、若干个边缘处理器以及若干种采集传感器;该发明通过合理划分传感器类型,并配置合理数量的边缘处理器,再通过边缘处理器或者数据服务器按照要求和清洗规则对传感器数据进行数据清洗,以达到提高数据清洗效率和数据清洗效果的目的;该发明在清洗规则更新后,既可以通过数据处理器统一进行数据清洗,又可以通过边缘处理器分别进行数据清洗,在保证数据清洗质量的基础上,提高了数据清洗效率。此外,还有公开号为cn116578842a的中国专利申请,公开了一种无线感知数据集的数据清洗方法及装置,将待清洗的无线感知数据集中的数据进行等量分组;基于分组后的数据构建网络模型训练集和待清洗样本集;使用训练集训练多个结构相同的分类网络,模型收敛后逐一对与训练集相匹配的待清洗样本集进行监测,根据样本标签判断并标定模型识别错误样本,并记录所有判决错误样本的标定频次及样本索引,实现错误样本标定;依次取其他未清洗样本组作为待清洗数据,重复错误样本标定的步骤,直到所有分组样本完成清洗;将待清洗数据中标定次数超过清洗阈值的样本判定为异常样本,并将异常样本删除。该发明使用数据集中大部分数据的一致性训练出的网络模型可以将不一致的数据剔除,达到数据清洗的效果。

3、然而,上述现有技术中仅进行数据清洗和异常样本的数据剔除,在实际情况中,不仅需要对监测数据进行数据清洗,还需要对数据清洗后的监测数据进行有效分析预测,获取有效的监测设备实现数据监测。


技术实现思路

1、为解决上述问题,本发明提供了一种生态环境监测数据清洗方法及系统,以解决现有技术中的问题。

2、为了达到上述的发明目的,本发明提出一种生态环境监测数据清洗方法,包括:

3、设定生态环境的监测类型,基于所述监测类型安装监测设备,所述监测设备基于时间序列采集监测数据,将所有所述监测数据基于所述监测设备的标签类型分类为自变量数据和因变量数据;

4、构建数据清洗模型,将所述监测数据分别输入所述数据清洗模型中,设定机器学习算法,所述数据清洗模型基于所述机器学习算法对所述监测数据进行清洗校正,分别生成对应的校正自变量数据和校正因变量数据;

5、在所有所述校正自变量数据中提取自变量关联数据,在所有校正因变量数据中提取与所述自变量关联数据具有关联的数据并设定为参考数据,将所有所述自变量关联数据和所有所述参考数据设定为训练集,基于所述训练集和所述机器学习算法构建环境监测模型;

6、基于所述环境监测模型输出所述生态环境在预测时间内的因变量变化序列,基于所述自变量关联数据对应的所述标签类型调整所述监测设备的类型,生成所述监测类型对应的标准监测设备,基于所述标准监测设备和所述因变量变化序列实现所述生态环境的监测。

7、进一步地,所述数据清洗模型基于所述机器学习算法对所述监测数据进行清洗校正包括以下步骤:

8、将任一标签类型对应的所述监测数据基于预设数量划分为多个子数据,基于所述机器学习算法分别提取所有子数据对应的数据特征,将所有数据特征进行主成分分析以提取所述监测数据的标准特征,将所述数据特征不同于所述标准特征的子数据设定为异常数据,基于所述机器学习算法设置纠错方式,基于所述纠错方式校正所述异常数据,以生成所述监测数据对应的标准监测数据,重复执行此步骤,至对所有标签类型对应的所述监测数据均进行校正生成对应的标准监测数据。

9、进一步地,所述基于所述机器学习算法设置纠错方式包括:

10、所述纠错方式包括删除方式和替换方式,若所述机器学习算法基于所述子数据的连续性提取对应的所述数据特征,则将所述纠错方式设定为所述替换方式,设定时间框,基于所述时间框在所述异常数据对应的时间点选取相邻数据,获取其他监测数据在所述时间点对应的数据并设定为对比数据,基于所述时间框包含的时间点数量获取任一对比数据的波动变化速率,计算所有对比数据在同一时间点的波动变化速率的平均值,将所述平均值设定为所述相邻数据的波动变化速率,基于所述相邻数据的波动变化速率生成所述异常数据对应的时间点的数据,并设定为替换数据,将所述异常数据修改为所述替换数据;

11、若所述机器学习算法基于所述子数据的数据频率性提取对应的所述数据特征,则所述纠错方式设定为所述删除方式,基于所述删除方式将所述异常数据删除处理。

12、进一步地,将所述自变量数据对应的所述标准监测数据设定为所述校正自变量数据,将所述因变量数据对应的所述标准监测数据设定为所述校正因变量数据。

13、进一步地,所述在所有所述校正自变量数据中提取自变量关联数据包括以下步骤:

14、分别获取任一校正自变量数据与任一校正因变量数据之间的相关函数,基于所述相关函数输出对应的元素相关度,将所述元素相关度设定为权重值;

15、基于所有所述权重值训练对应的相关函数以生成相关分析模型,在任一所述校正自变量数据中截取任一时间序列对应的子序列数据,将所述子序列数据输入所述相关分析模型中两个预设变量数据之间的相关函数中,并输出预测序列,比较所述预测序列与所述子序列数据在同一时间点之间的差值,若所述差值大于第一预设值,则判定所述两个预设变量数据对应的相关函数失效,否则,将所述两个预设变量数据中的所述校正自变量数据设定为所述自变量关联数据,将所述两个预设变量数据中的所述校正因变量数据设定为所述参考数据,其中,所述两个预设变量数据包括任一所述校正自变量数据和任一所述校正因变量数据。

16、进一步地,所述基于所述训练集和所述机器学习算法构建环境监测模型包括:

17、基于所述机器学习算法提取所述训练集的属性特征信息,基于所述属性特征信息计算变化范围,基于所述变化范围判断所述训练集是否超出预设的正常波动阈值,将所述训练集中所述变化范围超出所述正常波动阈值的数据设定为聚合数据,将所述变化范围未超出所述正常波动阈值的数据设定为训练数据,所述机器学习算法基于所述训练数据训练生成学习模型,所述学习模型基于所述聚合数据调整所述学习模型的模型精度,生成所述环境监测模型。

18、进一步地,所述基于所述属性特征信息计算变化范围包括:

19、获取所述训练集中具有相同属性特征信息的数据,设定为第一数据,基于所述时间序列计算所述第一数据的均值和标准差,基于第一公式计算所述变化范围t,所述第一公式为:,其中,m为所述第一数据的均值,n为所述第一数据的标准差,为所述机器学习算法提取所述属性特征信息的精度参数;

20、重复执行此步骤,计算出所有所述属性特征信息对应的变化范围。

21、进一步地,所述环境监测模型将所述训练数据中具有相同标签类型的所述参考数据设定为验证集,基于所述验证集输出预测值,将所有预测值基于所述预测时间依次组合,生成所述标签类型对应的所述因变量变化序列。

22、本发明还提供了一种生态环境监测数据清洗系统,该系统用于实现上述所述的一种生态环境监测数据清洗方法,该系统主要包括:

23、采集模块,设定生态环境的监测类型,基于所述监测类型安装监测设备,所述监测设备基于时间序列采集监测数据,将所有所述监测数据基于所述监测设备的标签类型分类为自变量数据和因变量数据;

24、清洗模块,构建数据清洗模型,将所述监测数据分别输入所述数据清洗模型中,设定机器学习算法,所述数据清洗模型基于所述机器学习算法对所述监测数据进行清洗校正,分别生成对应的校正自变量数据和校正因变量数据;

25、训练模块,在所有所述校正自变量数据中提取自变量关联数据,在所有校正因变量数据中提取与所述自变量关联数据具有关联的数据并设定为参考数据,将所有所述自变量关联数据和所有所述参考数据设定为训练集,基于所述训练集和所述机器学习算法构建环境监测模型;

26、监测模块,基于所述环境监测模型输出所述生态环境在预测时间内的因变量变化序列,基于所述自变量关联数据对应的所述标签类型调整所述监测设备的类型,生成所述监测类型对应的标准监测设备,基于所述标准监测设备和所述因变量变化序列实现所述生态环境的监测。

27、与现有技术相比,本发明的有益效果至少如下所述:

28、本发明首先通过数据清洗模型对不同标签类型对应的监测数据进行清洗校正,可以提高监测数据的准确性,然后通过设定训练集和机器学习算法,生成环境监测模型,可以提高生态环境的监测类型的精准度,最后通过自变量关联数据调整监测设备的类型,可以提高生态环境的监测设备的有效性,减少设备损耗。

29、本发明还通过设置不同的纠错方式进行异常数据的清洗校正,可以提高数据清洗模型的完整性。


技术特征:

1.一种生态环境监测数据清洗方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述数据清洗模型基于所述机器学习算法对所述监测数据进行清洗校正包括以下步骤:

3.根据权利要求2所述的方法,其特征在于,所述基于所述机器学习算法设置纠错方式包括:

4.根据权利要求3所述的方法,其特征在于,将所述自变量数据对应的所述标准监测数据设定为所述校正自变量数据,将所述因变量数据对应的所述标准监测数据设定为所述校正因变量数据。

5.根据权利要求1所述的方法,其特征在于,所述在所有所述校正自变量数据中提取自变量关联数据包括以下步骤:

6.根据权利要求1所述的方法,其特征在于,所述基于所述训练集和所述机器学习算法构建环境监测模型包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述属性特征信息计算变化范围包括:

8.根据权利要求6所述的方法,其特征在于,所述环境监测模型将所述训练数据中具有相同标签类型的所述参考数据设定为验证集,基于所述验证集输出预测值,将所有预测值基于所述预测时间依次组合,生成所述标签类型对应的所述因变量变化序列。

9.一种生态环境监测数据清洗系统,用于实现如权利要求1-8任一项所述的方法,其特征在于,所述系统包括如下模块:


技术总结
本发明公开了一种生态环境监测数据清洗方法及系统,属于数据处理技术领域,包括:采集监测数据,将所有监测数据基于监测设备的标签类型分类为自变量数据和因变量数据;数据清洗模型基于机器学习算法对监测数据进行清洗校正,分别生成对应的校正自变量数据和校正因变量数据;分别提取自变量关联数据和参考数据,并设定为训练集,基于训练集和机器学习算法构建环境监测模型;基于环境监测模型输出生态环境在预测时间内的因变量变化序列,调整监测设备的类型,以生成标准监测设备,基于标准监测设备和因变量变化序列实现生态环境的监测。通过本发明不仅可以提高数据清洗的多样性和准确性,还可以提高监测设备的必要性和生态环境监测的精准度。

技术研发人员:杨凯,李世娟,徐钰,杨彬
受保护的技术使用者:江苏朗慧环境科技有限公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)