一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索方法

专利查询4小时前  1


本发明涉及土木工程结构健康监测,是一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索方法。


背景技术:

1、桥梁结构在现代交通中具有至关重要的作用。它可以显著增强地区之间的连通性,缓解交通拥堵,提高交通基础设施的整体运营效率。桥梁结构的大规模建设发生在20世纪90年代至21世纪初。目前,世界各地的许多桥梁已经服役超过30年。在桥梁结构的服役期间,环境条件(风、雪、温度变化)、人为因素(车辆荷载、碰撞)和极端事件(地震、交通拥堵)等多种因素都会对桥梁结构造成影响,导致结构出现如损伤、裂缝、断裂和腐蚀等多种形式和不同程度的破坏,对桥梁的承载力、耐久性和可靠性造成不利影响。

2、为保证桥梁结构在服役期间的安全性与可靠性,提高结构服役寿命,针对桥梁结构的安全评估、可靠性分析与寿命预测成为了桥梁工程的重要研究内容。由于桥梁结构体量巨大,结构形式复杂多变,承载力受到多种因素的影响,在进行可靠性分析时,常常将其转化为由基本构件组成的结构系统并进行分析。在结构体系可靠度研究领域,针对结构系统所进行的可靠性分析被划分为失效模式的搜索和多模式失效概率的计算两个过程。其中,结构系统的失效模式可以反映出结构的失效机理、薄弱环节与承载能力等重要信息,在结构的安全评估、检修与维护等方面发挥着重要作用。

3、根据失效构件的搜索方式与判断依据,可以将现有的结构系统失效模式搜索方法分为失效准则法和失效概率法两类。在失效准则法的搜索过程中,通过定义并根据结构系统中构件在荷载作用下的风险程度指标来选择最不利的构件。该类方法在工程设计与实际应用中逐渐发展起来,并以工程经验作为构件失效准则的设计依据。常见的失效准则包括构件的承力比、有效承力比、强度比、系统强度、荷载增量最小准则等。这一类方法的优点主要体现在需要的计算量少且应用简单两个方面,并在搜索过程中具有明确的物理意义。然而,作为结构体系可靠度的早期研究成果,该类方法缺乏严格的理论推导与实际验证,使失效模式的搜索精度难以保证。

4、随着构件可靠度研究领域中失效概率求解方法的大量提出,结构系统失效模式搜索方法也得到了改进与提高,搜索过程中失效构件的选择依据逐渐转变为构件的失效概率。具有代表性的方法包括截止枚举法、分枝-约界法、弹性模量缩减法、几何法、β-约界法等。这类方法以构件可靠度作为理论支撑,搜索过程为结构系统中构件逐步失效的过程,更加符合结构系统失效的机理与结构体系可靠度的本质,因此搜索结果更加可信且适用范围也更加广泛。然而,在应用于构件数量巨大且复杂的结构系统时,其搜索过程将受到“组合爆炸”问题的限制,需要的计算量巨大,使得搜索难以进行。如果通过分支限界技术来控制搜索规模,则有可能导致失效模式的丢失或冗余。

5、近年来,深度学习理论飞速发展,并被成功应用于各个研究领域。由于深度学习具有强大的高维非线性问题求解能力,因此也被广泛应用于结构可靠度研究领域。本发明利用深度学习的高维非线性表达能力与强化学习的决策能力,开展基于深度强化学习与自博弈策略的斜拉桥结构失效模式搜索方法研究,应对搜索过程中的“组合爆炸”问题,实现大型斜拉桥结构失效模式的高效高精度搜索。


技术实现思路

1、针对现有技术的不足,结构系统的失效模式搜索是结构体系可靠度的重要研究内容,在结构的可靠性分析、安全评估与寿命预测等领域发挥着不可替代的作用。然而,现有失效模式搜索方法在应用于大型桥梁工程结构时常常受到“组合爆炸”问题的影响,使搜索过程变得非常复杂且需要大量的计算,导致搜索难以进行。针对这一问题,本发明的目的是提出一种基于深度强化学习与自博弈策略的结构系统失效模式搜索技术,实现对于斜拉桥结构失效模式的高效高精度搜索。

2、本发明提供了一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索方法,本发明提供了以下技术方案:

3、一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索方法,包括以下步骤:

4、步骤1:将斜拉桥结构划分为由基本构件组成的结构系统,根据结构系统设计资料,建立有限元模型,根据结构系统受到的影响因素和考虑的不确定性,建立失效模式搜索的样本空间;

5、步骤2:将结构系统失效模式搜索过程转化为基于深度强化学习的序贯决策过程,将结构系统的失效状态与对应的失效构件转化为深度强化学习的状态与动作;

6、步骤3:根据结构系统的失效准则、构件的荷载效应与抗力,设计基于深度强化学习的自博弈过程和相应的评分函数,从样本空间中抽取样本建立训练集,通过有限元模型计算训练集中各样本在不同失效阶段中各构件的评分;

7、步骤4:基于深度强化学习和自博弈策略建立异步多进程训练框架,在评分函数的指导下使深度神经网络学习到失效构件的选择策略;

8、步骤5:使用训练后的深度神经网络对结构系统的样本空间进行搜索,获得斜拉桥结构系统的失效模式。

9、优选地,所述步骤1具体为:

10、根据各构件的类别与功能,将结构划分为由构件组成的结构系统,根据设计资料建立有限元模型,包含组成结构系统的全部承载构件;

11、通过监测数据所反映出的结构系统所受到的影响因素和考虑的材料属性、承载能力的不确定性,建立结构系统的样本空间。

12、优选地,所述步骤2具体为:

13、根据结构系统所受到的影响因素、考虑的随机性和各构件的当前失效状态,建立结构系统的在当前失效阶段中的失效状态;

14、将结构系统的失效状态转化为基于深度强化学习的状态,将根据失效状态所选出的最不利构件转化为基于深度强化学习的动作,建立基于深度强化学习的结构系统失效模式搜索框架。

15、优选地,所述步骤3具体为:

16、根据结构系统失效模式搜索中的失效构件选择过程,设计自博弈策略,在自博弈过程中,深度神经网络根据结构系统的失效状态做出两次选择,分别对应两个构件;根据构件对应的评分,分数高的构件获胜;在训练过程中,深度神经网络通过自博弈过程,逐步学习如何根据当前失效状态选出对应分数最高的构件,即最不利构件;

17、深度神经网络通过自博弈过程中的胜负逐步学习到最不利构件的选择策略,需要构件的评分反映其在当前失效阶段中的风险程度,使最不利构件对应最高的分数,基于以上需要设计的评分函数按下列公式计算:

18、.score(t)={score(c1|t),score(c2|t),…,scoret(ci|t),…,score(cn|t)}.

19、

20、其中,score(ci|t)为第t失效阶段中构件ci对应的分数,和分别为第t失效阶段中构件ci的荷载效应与抗力,在样本空间中直接抽取样本建立训练集,通过有限元分析计算评分函数中所需的构件在各样本的不同失效阶段中的荷载效应,进而计算各构件的评分。

21、优选地,所述步骤4具体为:

22、步骤4.1:在基于深度强化学习与自博弈策略的训练过程中,深度神经网络根据样本的失效状态选出失效构件,并转移至样本的下一失效阶段,以上过程重复进行,直至结构系统失效,其中,失效状态和失效构件分别对应深度强化学习中的状态与动作;

23、步骤4.2:训练中的自博弈过程基于蒙特卡洛树搜索设计,其搜索树由多个节点组成,对应结构系统中的构件,每个子节点通过一个边与其父节点相连,并在边中储存了节点的如下统计信息:

24、{n(si,ai),w(si,ai),q(si,ai),p(si,ai)}

25、其中,n(si,ai)为节点访问次数、w(si,ai)为节点总动作值、q(si,ai)为节点平均动作值,p(si,ai)为节点先验概率,在自博弈过程中,深度神经网络在选出动作前,需要根据当前失效状态进行多次蒙特卡洛树搜索的模拟来决定动作的选择,每次模拟包含选择、展开与评估和回溯三个步骤;

26、通过自博弈过程中的蒙特卡洛树搜索得到的搜索概率,反映出最不利构件的选择策略,深度神经网络通过参数更新使其输出的先验概率逐渐接近搜索概率,网络的参数更新按下列公式进行:

27、l=-πtlogp+c||θ||2

28、其中,π为自博弈过程中获得的搜索概率;p为构件被选的先验概率,由深度神经网络输出;c为l2权重衰减系数;

29、步骤4.3:训练过程中采用的异步多进程框架包含一个全局网络和多个本地网络,在训练开始前,每个本地网络分别从样本集中获得一个随机样本,基于深度强化学习开始各自的训练过程,通过自博弈过程收集样本的失效状态与对应的搜索概率数据,并将其传递给全局网络,全局网络根据本地网络提供的数据进行参数更新,并将更新后的参数再次共享给各本地网络,在训练过程中,本地网络用于训练和收集数据,全局网络则用于储存、更新和共享网络参数。

30、优选地,选择、展开与评估和回溯具体为:

31、在选择步骤中,按下列公式从根节点开始,逐步选择子节点:

32、

33、其中,为博弈阶段.si.中最大值对应的节点;ai为博弈阶段si中所选的节点;u(si,ai)为博弈阶段si中节点ai的收益信号;cpuct为定义蒙特卡洛树搜索的探索程度的常数;b为节点ai的父节点,在到达搜索树的叶节点时,按下列公式对未展开节点进行展开与评估:

34、

35、p=p(sl,a(sl))

36、其中,score(c=al|t)为节点al在第t失效阶段中的评分;p(sl,a(sl))为博弈阶段sl中所有合法节点的先验概率;pal为节点al的先验概率,由深度神经网络根据失效状态输出,叶节点展开完成后,按下列公式对搜索树进行回溯:

37、n(si,ai)=n(si,ai)+1

38、w(si,ai)=w(si,ai)+v

39、

40、经多次模拟后,按下列公式计算各节点的搜索概率:

41、

42、其中,π(a|s1)为在博弈阶段s1中节点ai的搜索概率;τ为用于调整探索与利用之间的平衡的参数,根据计算出的搜索概率,在自博弈过程中做出选择。

43、优选地,所述步骤5具体为:

44、使用训练后的深度神经网络对样本空间中的大量随机样本进行搜索,根据每个随机样本建立失效模式搜索过程,通过深度神经网络选出最不利构件组成失效模式;

45、对样本空间中随机样本的失效模式搜索结果进行统计分析,获得结构系统的主要失效模式。

46、一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索系统,所述系统包括:

47、模型建立模块,所述模型建立模块将斜拉桥结构划分为由基本构件组成的结构系统,根据结构系统设计资料,建立有限元模型,根据斜拉桥结构系统受到的影响因素和考虑的不确定性,建立失效模式搜索的样本空间;

48、转化模块,所述转化模块将结构系统失效模式搜索过程转化为基于深度强化学习的序贯决策过程,将结构系统的失效状态与对应的失效构件转化为深度强化学习的状态与动作;

49、训练模块,所述训练模块根据结构系统的失效准则、构件的荷载效应与抗力,设计基于深度强化学习的自博弈过程和相应的评分函数,从样本空间中抽取样本建立训练集,通过有限元模型计算训练集中各样本在不同失效阶段中各构件的评分;

50、选择策略模块,所述选择策略模块基于深度强化学习和自博弈策略建立异步多进程训练框架,在评分函数的指导下使深度神经网络学习到失效构件的选择策略;

51、失效搜索模块,所述失效搜索模块使用训练后的深度神经网络对结构系统的样本空间进行搜索,获得斜拉桥结构系统的失效模式。

52、一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索方法。

53、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索方法。

54、本发明具有以下有益效果:

55、本发明与现有技术相比:

56、本发明提出一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索方法。本发明将结构系统失效模式搜索过程中基于失效概率的构件选择过程,转化为基于深度强化学习的序贯决策过程,使搜索过程不再需要复杂的失效概率计算与状态转化计算,减少“组合爆炸”问题对搜索过程的影响;

57、本发明的自博弈策略可有效降低训练过程中对先验知识的依赖,充分发挥评分函数计算过程中每次有限元分析所得结果的作用,减少有限元分析的次数,使训练过程更加智能;

58、本发明的评分函数可以反映出结构系统中构件在当前失效状态中的风险差异,体现出构件荷载效应与抗力之间的关系,指导深度神经网络学习最不利构件选择策略;

59、本发明的异步多进程训练方法可以提高深度神经网络的训练效率与稳定性,避免训练过程中的局部最优问题;

60、本发明的方法的训练与搜索过程基于失效模式的搜索过程建立,其应用不受结构类型的限制,并可与结构健康监测技术相结合。


技术特征:

1.一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索方法,其特征是:包括以下步骤:

2.根据权利要求1所述的方法,其特征是:所述步骤1具体为:

3.根据权利要求2所述的方法,其特征是:所述步骤2具体为:

4.根据权利要求3所述的方法,其特征是:所述步骤3具体为:

5.根据权利要求4所述的方法,其特征是:所述步骤4具体为:

6.根据权利要求5所述的方法,其特征是:选择、展开与评估和回溯具体为:

7.根据权利要求6所述的方法,其特征是:所述步骤5具体为:

8.一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索系统,其特征是:所述系统包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-7的方法。

10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征是:所述处理器执行所述计算机程序时实现权利要求1-7的方法。


技术总结
本发明是一种基于深度强化学习和自博弈策略的斜拉桥结构失效模式搜索方法。本发明涉及土木工程结构健康监测技术领域,本发明将结构系统失效模式搜索过程中基于失效概率的构件选择过程,转化为基于深度强化学习的序贯决策过程,使搜索过程不再需要复杂的失效概率计算与状态转化计算,减少“组合爆炸”问题对搜索过程的影响。本发明的自博弈策略可有效降低训练过程中对先验知识的依赖,充分发挥评分函数计算过程中每次有限元分析所得结果的作用,减少有限元分析的次数,使训练过程更加智能。

技术研发人员:鲍跃全,关效澍,李惠
受保护的技术使用者:哈尔滨工业大学
技术研发日:
技术公布日:2024/12/5

最新回复(0)