基于环境多维信息集成学习的水污染检测方法

专利查询16天前  21


本发明涉及水质检测,具体涉及一种基于环境多维信息集成学习的水污染检测方法。


背景技术:

1、对水污染物进行快速、准确、全面地监测是水体治理的关键环节。如何快速且准确检测出水中污染物是水资源和水环境领域所要研究的重点问题。传统的水污染物检测方法主要依赖于化学分析和生物检测方法,这些方法虽然能够提供较为准确的检测结果,但通常需要较长的检测时间、复杂的操作流程和昂贵的检测设备。

2、现有技术中,常见的水污染物检测方法包括物理法、化学法和生物法。物理法如膜过滤技术、光谱技术,化学法如滴定法、电化学分析法,生物法如生物传感器技术等。这些方法在实际应用中都存在一定的局限性,例如物理法对设备要求较高,化学法检测周期长且容易造成二次污染,生物法则容易受环境因素影响而导致检测结果不稳定。

3、随着大数据和机器学习技术的发展,基于数据驱动的方法逐渐应用于水污染物检测领域。这类方法通过采集水样相关数据,结合机器学习算法,对水污染物进行实时检测和预测。然而,传统的机器学习方法如决策树、支持向量机等在处理高维度数据和非线性关系时,往往表现出一定的局限性,难以满足高精度检测的要求。目前的基于深度学习的水污染物检测方法数据依赖性强、计算资源需求高,在面临复杂水环境,水污染物多样、特征较多时,存在检测实时性与效率低、准确性差、目标函数难以准确选择,以及水污染物检测模型跨环境适应度与泛化能力较差,且可能存在过拟合等问题。

4、总之,现有的水污染物检测方法在检测时间、检测精度和环境适应度等方面仍存在一些不足。因此亟需一种可以涉及多种特征,能够根据环境多维信息处理水质监测数据分类回归问题的高性能、高准确度的水污染物检测新方法,以满足实际应用的需求。


技术实现思路

1、为了克服已有方法的不足,本发明提供一种高性能、高准确度的基于环境多维信息集成学习的水污染检测方法,在水污染物检测时涉及环境多维信息,提升模型跨环境适应度,提高超参数优化效率,使模型更加简化的同时提高泛化能力,能够在复杂水质环境中实现污染物浓度的高精度检测。

2、为了解决上述技术问题,本发明提供如下技术方案:

3、一种基于环境多维信息集成学习的水污染检测方法,对水样进行多种特征的测量获取环境多维信息,设定xgboost集成学习模型的初始超参数,并进行训练,建立基础模型;设定超参数的取值空间,定义评估函数,使用spbo算法迭代更新超参数种群,得到最优超参数组;使用经过spbo优化的最优超参数组来训练xgboost模型,得到spbo-xgboost模型,获取水体样本多种特征数据对应输入spbo-xgboost模型,实现对水污染物含量的检测。

4、进一步,所述方法包括以下步骤:

5、步骤1:获取样本数据

6、测量水样,获取水质数据,包括激发波长、发射波长、荧光强度、吸光度、电导率、温度、ph、溶解氧和浊度等环境多维信息,进行数据预处理并建立水污染物浓度标签,为模型的训练和测试备好数据集;

7、步骤2:建立xgboost基础模型

8、设置初始模型超参数,包括学习率、树的深度、子采样比例、列采样比例和正则化参数等,建立基础模型;假设给定数据集由n个样本和m个特征组成,xgboost模型共集成了k颗决策树,即k次迭代,对于每个水样i,fi表示相应的特征,如激发波长、发射波长、荧光强度、吸光度、电导率、温度、ph、溶解氧和浊度等,对应水污染物浓度真实值ci,数据集表示为d={fi,ci}(|d|=n,fi∈rm,ci∈r),计算模型的水污染物浓度预测结果ci,表示为:

9、

10、

11、其中表示树结构空间集,q是树的结构,可以将样本映射到相应的叶节点,q(f)用于判断一条数据落入哪个叶节点,树的叶节点的预测取值fk(fi)表示该节点处所有样本的回归值,每颗树fk都有对应独立的树结构q和权重w,t表示树内叶节点总数,每个叶节点j,j∈{1,2,...,t}都有其对应的值,即权重wj;

12、xgboost算法使用目标函数来调节学习过程,当目标函数的减少变得有限时,学习过程终止,目标函数中包含损失函数项与正则项,目标函数表示如下:

13、

14、其中n表示样本的数量,损失函数项衡量了模型预测与实际观测值之间的差异,描述了模型与训练数据的拟合程度;是惩罚复杂性成本、防止过拟合的正则化项,λ,γ是正则化超参数,||wj||2表示每棵树叶节点上对应值的平方。xgboost的目标是最小化目标函数,通过迭代地优化损失函数和正则化项,以得到最优的模型;

15、每棵树是通过最小化目标函数来构建的,树的构建是在迭代过程中完成的,从先前的树中训练新添加的树,并更新预测值中的残差,在n个样本上遍历,迭代k次的目标函数如式(4)所示,在每个迭代步骤k过程中,为了优化该函数,找到使目标函数最小化的树fk,仅用一阶导数无法保证找到的是全局最优解,所以使用二阶泰勒展开来估计,最后消除常数项,将在样本上遍历改写为在叶节点j上遍历,得到目标函数的近似式(5);

16、

17、

18、其中与分别是损失函数的一阶和二阶导数,ij为叶节点j内的全部样本数据。此时求目标函数的最小值,令其一阶导数为零,如式(6)所示,解得式(7),即当wj取值为时,目标函数取得最小值。

19、

20、

21、将式(7)带入式(5)得最优目标函数值为:

22、

23、为了找到最佳分裂点,决策树的构建采用贪心算法,每一次尝试去对已有的叶子加入一个分割,通过迭代遍历所有叶节点,计算增益来判断这个分割是否是最好的,对于一个具体的分割方案,增益计算如下:

24、

25、其中与分别是左子树和右子树的分数,是分割前的分数,γ是加入新的叶节点引入的复杂度代价,gain值越大越好;

26、利用贪心算法对叶结点进行分割,利用最优目标函数值衡量决策树的结构,在完成所有树的构建后,最终预测值是所有树预测值的累加,如式(1)所示,完成xgboost基础模型的建立;

27、步骤3:spbo优化超参数

28、给定需优化的超参数,给定每个超参数取值空间,使用spbo在给定的超参数取值空间中实现对最合适的超参数的搜索,初始化超参数种群,给每个超参数赋予初始值,每组被赋值的超参数组成一个超参数组,一个超参数组被视为是超参数种群中的一个个体;定义评估函数,使用每个超参数组训练xgboost模型,并返回在验证集上的性能指标(例如均方误差),使用评估函数评估每个超参数组的性能;获取每个超参数组的性能指标,利用spbo算法将种群中的超参数组按性能指标分为:最优、次优、一般和随机提升四个种类;

29、步骤4:训练xgboost模型实现水污染物检测

30、使用经过spbo优化的最优超参数组来训练xgboost模型,得到spbo-xg boost模型,并使用交叉验证来评估模型在最优超参数下的性能,以确保得到的模型具有较好的泛化能力,避免过拟合与欠拟合,测量待测水样的激发波长、发射波长、荧光强度、吸光度、电导率、温度、ph、溶解氧和浊度等特征,输入spbo-xgboost模型,输出为水样中水污染物浓度,通过使用spbo进行超参数调整,xgboost模型的预测能力得到了增强,从而实现了水污染物浓度的更快计算和更精确预测。

31、再进一步,所述步骤3中,针对不同种类分别设计了不同的算子,数学计算过程如下:

32、3.1)最优超参数组

33、

34、其中,a随机设定为1或2,rand()是[0,1]之间的随机数,t为当前迭代次数,代表当前超参数种群中,最优超参数组的值,是当前迭代中,随机选择的第j个超参数组的值;

35、3.2)次优超参数组

36、

37、

38、其中,为当前超参数种群中第i个超参数组的值,为平均性能指标对应的超参数组的值,即种群所有个体的均值向量,rand()是[0,1]之间的随机数;

39、3.3)一般超参数组

40、

41、其中,为平均性能指标对应的超参数组的值,即种群所有个体的均值向量,rand()是[0,1]之间的随机数;

42、3.4)随机提升超参数组

43、

44、其中,与分别为表示超参数种群中性能指标最高和最低的超参数组对应的值,rand()是[0,1]之间的随机数;

45、根据上述spbo算法的策略更新超参数种群,并生成新的候选超参数组并评估其性能指标,重复上述过程,直到达到预设的迭代次数或超参数组性能不再显著提高,得到最优超参数组。

46、本发明的技术构思为:本发明耦合学生心理学优化(spbo)算法与极限梯度提升(xgboost)算法,xgboost是一种集成学习算法,将一组决策树组合为强学习器,通过集成多个决策树模型来提高整体模型的性能,每一棵决策树均会学习数据的特征和标签之间的关系,并作出相应的预测,而最终的预测结果为所有决策树预测结果的加权和,通过这种方式来使环境多维信息参与模型训练与预测,提高模型的泛化能力和预测性能;利用梯度提升算法不断优化模型,在每一轮迭代中生成新的决策树,用每一个树的预测结果拟合上一棵树的预测结果的残差,并更新模型,以减少残差误差,从而逐步提升整体模型的性能。

47、由于xgboost模型的性能高度依赖超参数的取值,因此需要进行调优以达到最佳性能。spbo是一种模拟学生心理的元启发式智能优化算法,本发明通过spbo算法对xgboost模型中的超参数,例如学习率、树的深度、子采样比例、正则化参数等进行优化,实现对最合适的超参数的搜索。spbo算法通过评估xgboost模型在搜索空间内的不同超参数上的性能来识别最优超参数,然后使用经由spbo优化后的超参数和训练数据集来训练xgboost模型,建立spbo-xg boost模型。通过使用spbo进行超参数调优,xgboost模型的预测能力得到了增强,从而实现了水污染物浓度的更快计算和更精确预测。

48、本发明的有益技术效果主要表现在:1.采用xgboost集成学习算法建立模型,与传统方法相比,本发明更适用于特征较多的数据集,可以在水污染物检测时涉及环境多维信息,提升模型跨环境适应度。使模型更加简化,防止过拟合,减少计算量的同时提高泛化能力。2.将spbo算法与xgboost算法耦合,利用spbo对模型超参数进行调优,确保每个特定数据集的模型达到最佳性能,不仅可以使得超参数调优效率、计算稳定性和预测精度提高,还可以减少耗时,提供了一种高效、精确的水质检测方案。本发明在特征选择、模型训练和超参数优化方面具有显著优势,能够在复杂水质环境中实现污染物浓度的高精度检测,为环境监测和污染治理提供重要支持。


技术特征:

1.一种基于环境多维信息集成学习的水污染检测方法,其特征在于,对水样进行多种特征的测量获取环境多维信息,设定xgboost集成学习模型的初始超参数,并进行训练,建立基础模型;设定超参数的取值空间,定义评估函数,使用spbo算法迭代更新超参数种群,得到最优超参数组;使用经过spbo优化的最优超参数组来训练xgboost模型,得到spbo-xgboost模型,获取水体样本多种特征数据对应输入spbo-xgboost模型,实现对水污染物含量的检测。

2.如权利要求1所述的基于环境多维信息集成学习的水污染检测方法,其特征在于,所述方法包括以下步骤:

3.如权利要求2所述的基于环境多维信息集成学习的水污染检测方法,其特征在于,所述步骤2中,针对不同种类分别设计了不同的算子,数学计算过程如下:


技术总结
一种基于环境多维信息集成学习的水污染检测方法,对水样进行多种特征的测量获取环境多维信息,设定XGBoost集成学习模型的初始超参数,并进行训练,建立基础模型;设定超参数的取值空间,定义评估函数,使用SPBO算法迭代更新超参数种群,得到最优超参数组;使用经过SPBO优化的最优超参数组来训练XGBoost模型,得到SPBO‑XGBoost模型,获取水体样本多种特征数据对应输入SPBO‑XGBoost模型,实现对水污染物含量的检测。本发明在水污染物检测时涉及环境多维信息,提升模型跨环境适应度,提高超参数优化效率,使模型更加简化的同时提高泛化能力,能够在复杂水质环境中实现污染物浓度的高精度检测。

技术研发人员:胡映天,郭俊毅,陈文龙,赵冬冬,缪恩扬,桑瑚徽,缪文杰
受保护的技术使用者:浙江工业大学
技术研发日:
技术公布日:2024/12/5

最新回复(0)