1.本技术涉及计算机
技术领域:
:,特别涉及一种走逃企业的预测方法、系统及相关装置。
背景技术:
::2.当前使用的算法模型为xgboost,其因为boosting算法的特性,模型训练更注重降低整体的偏差,而对方差的降低没有太多优化,导致模型的鲁棒性不高。实践结果证明,现有已优化的xgboost模型在训练集上的指标能够达到精确率:0.87,召回率:0.94。但是在测试集上的指标只能达到精确率:0.55,召回率:0.54。测试集的效果远不如训练集,说明模型存在着严重的过拟合现象。2)走逃企业的预测,在原则上宁可将走逃企业判别为正常企业,也不能错把任何一个正常企业判别为走逃企业,因为这样会遭到大量的客诉,是业务方所不允许的。这就要求模型在测试集上的精确度要达到一个极高的标准,而当前0.54的精确率则远远未达标。3.同时,走逃业务方不仅需要知道模型的预测概率,还需要知道具体的判断依据,但是因为xgboost模型有一定的黑盒特性,所以预测结果的可解释性很难达到要求。技术实现要素:4.本技术的目的是提供一种走逃企业的预测方法、预测系统、计算机可读存储介质和电子设备,能够提高对于走逃企业的预测精确度。5.为解决上述技术问题,本技术提供一种走逃企业的预测方法,具体技术方案如下:6.获取待建模数据特征;7.对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;8.对每个所述抽样样本数据分别进行lightgbm建模,得到预测模型;9.利用预测模型根据平均信息熵增益输出每个特征的特征权重;10.利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。11.可选的,还包括:12.根据建模需求,并确定所述建模需求中的特征获取规则和业务要求;13.根据所述特征获取规则生成特征宽表;14.读取所述特征宽表,根据所述业务要求对所述读入数据进行特征工程处理;其中,所述特征工程处理包括缺失值填充、过采样、负采样、数值化类别特征、衍生变量中一项或任意几项的组合。15.可选的,得到预测模型之后,还包括:16.使用graphviz绘制各所述预测模型对应决策树的结构。17.可选的,还包括:18.根据所述特征重要性指标对所述预测模型的模型特征进行校验,优化和/或删除异常特征后,重新训练所述预测模型。19.可选的,还包括:20.接收输入字段;21.利用后端sql查询所述输入字段对应的条目信息;22.将所述条目信息中的其他字段信息和所述输入字段作为参数输入至所述预测模型。23.可选的,利用所述预测模型对读入数据进行走逃企业预测,得到预测结果之后,还包括:24.将所述预测结果存储于预设数据库。25.可选的,利用所述预测模型根据平均信息熵增益输出每个特征的特征权重之后,还包括:26.利用lime对所述读入数据执行基于数据生成的回归建模,得到所有特征在所述读入数据上的重要性分数。27.本技术还提供一种走逃企业的预测系统,包括:28.数据获取模块,用于获取待建模数据特征;29.抽样模块,用于对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;30.模型生成模块,用于对每个所述抽样样本数据分别进行lightgbm建模,得到预测模型;31.特征权重确定模块,用于利用预测模型根据平均信息熵增益输出每个特征的特征权重;32.预测模块,用于利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。33.可选的,还包括:34.读入数据处理模块,用于根据建模需求,并确定所述建模需求中的特征获取规则和业务要求;根据所述特征获取规则生成特征宽表;读取所述特征宽表,根据所述业务要求对所述读入数据进行特征工程处理;其中,所述特征工程处理包括缺失值填充、过采样、负采样、数值化类别特征、衍生变量中一项或任意几项的组合。35.本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。36.本技术还提供一种电子设备,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。37.本技术提供一种走逃企业的预测方法,包括:获取待建模数据特征;对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;对每个所述抽样样本数据分别进行lightgbm建模,得到预测模型;利用预测模型根据平均信息熵增益输出每个特征的特征权重;利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。38.本技术基于装袋算法和lightgbm构建预测模型,在提升模型准确度的同时极大缓解了模型过拟合的现象。其中,lightgbm模型的使用大大降低了模型训练时对物理内存的占用,能够用更大的数据量和更高维度的特征进行模型的训练,精确度更高,提升了对走逃企业预测准确性的同时,减少了客诉。39.本技术还提供一种走逃企业的预测系统、计算机可读存储介质和电子设备,具有上述有益效果,此处不再赘述。附图说明40.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。41.图1为本技术实施例所提供的一种走逃企业的预测方法的流程图;42.图2为本技术实施例所提供的一种走逃企业的预测系统结构示意图。具体实施方式43.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。44.请参考图1,图1为本技术实施例所提供的一种走逃企业的预测方法的流程图,该方法包括:45.s101:获取待建模数据特征;46.需要注意的是,本步骤旨在获取待建模数据特征,而非待建模数据,在步骤之前,或者在本步骤需要从待建模数据中筛选出准确且高效的待较慢数据特征,在筛选过程中,涉及大量的业务知识以及若干种算法的过滤,在此不一一举例说明。47.s102:对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;48.s103:对每个所述抽样样本数据分别进行lightgbm建模,得到预测模型;49.步骤s102和步骤s103旨在利用bagging+lightgbm模型得到预测模型。bagging算法(英文全称:bootstrapaggregating,直译为引导聚集算法),又称装袋算法,bagging算法可与其他分类、回归算法结合,提高其准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生。lightgbm(lightgradientboostingmachine)是一个实现gbdt算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。50.首先对待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据,例如可以使用kfold方式将数据进行10次有放回抽样,且每次抽样保证样本的数据分布跟总体基本相同。而在进行lightgbm建模时,可以使用python的lightgbm包,将这一批抽样数据分别建模,最后的预测概率为若干个lightgbm预测值的加权平均。具体的,计算加权平均时,可以根据每个子模型的loss大小,用softmax公式决定该模型占总体的权重。51.s104:利用预测模型根据平均信息熵增益输出每个特征的特征权重;52.输出每条数据模型预测的特征权重。业务人员希望模型不仅能输出预测的概率,还要提供预测的依据,因此预设模型在接口返回时加入了每个预测模型预测的特征权重53.需要注意的是,本实施例中该步骤在得到预测结果之前即可实现,而在本技术的其他实施例中,可以在得到预测结果之后执行。本步骤的目的在于便于业务人员更好的理解本技术所得到的预测模型以及预测模型如何输出预测结果。54.s105:利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。55.最后即可利用预测模型对读入数据进行走逃企业的预测,从而得到预测结果。本步骤默认包含对读入数据的获取过程,在此对于如何获取读入数据不作具体限定,该读入数据即指待预测的企业的相关数据,主要针对于税务相关数据。56.作为一种优选的执行方法,针对读入数据可以针对性进行数据处理,具体过程可以如下:57.第一步、根据建模需求,并确定所述建模需求中的特征获取规则和业务要求;58.第二步、根据所述特征获取规则生成特征宽表;59.第三步、读取所述特征宽表,根据所述业务要求对所述读入数据进行特征工程处理。60.业务方根据从业经验配置建模需求,从而初步设定相关特征变量以及特征获取规则。此后可以根据特征获取规则在数据库中设计和制作特征宽表。最后可以读取特征宽表,从而执行读入数据的特征工程处理。特征工程处理包括但不限于缺失值填充、过采样、负采样、数值化类别特征、衍生变量等。61.作为本实施例的一种优选执行方式,还可以输出每个预测模型预测的特征权重,本领域技术人员往往希望在输出预测概率的同时,提供预测的依据,因此可以在接口返回数据时加入各预测模型预测的特征权重。62.此后,还可以执行特征重要性评估,gain作为一种特征重要性评估指标,用于计算使用该特征作为节点分支的平均信息熵增益,此后可以根据特征重要性指标对预测模型的模型特征进行校验,优化和/或删除异常特征后,重新训练预测模型。该过程中,可以反复迭代预测模型,直至预测模型符合本领域技术人员的认可或者满足预设条件,在此对于预设条件不作限定,其可以为异常特征率低于某个阈值等。具体的,可以应用lime模型(localinterpretablemodel-agnosticexplanations,用于解释机器学习模型)会根据原有特征和原模型的预测概率建立新的线性解释模型。通过lime模型计算每个样本的特征权重然后取均值,得到解释模型的特征参数,也可以作为重要性分数。与特征重要性进行对比,对出入较大的特征单独检验特征值分布、缺失率、woe等指标,根据具体情况进行重新判定。63.作为一种优选的执行方式,得到预测模型之后,还可以使用graphviz绘制各所述预测模型对应决策树的结构。由于本技术实施例所得到的模型本身非常抽象,一般的业务人员无法理解,因此可以将模型的预测逻辑以图像(即决策树)的形式更直观地展现出来,辅助业务人员做出决断。从而可以让算法人员和业务人员直观地看到模型的分支策略,辅助促进由算法模型到业务规则的转换。64.作为一种优选的执行方式,利用所述预测模型根据平均信息熵增益输出每个特征的特征权重之后,还可以利用lime(localinterpretablemodel-agnosticexplanations,模型解释器)模型对所述读入数据执行基于数据生成的回归建模,得到所有特征在所述读入数据上的重要性分数,从而便于业务人员在得到读入数据对应预测结果的基础上,确认预测结果中各特征的特征权重。lime模型常用语解释机器学习模型,而本技术实施例应用lime模型进行特征权重的确认。65.在利用预测模型得到预测结果之后,可以将预测结果存储于预设数据库,从而便于业务方实时获取企业走逃概率,能够满足某个时间段内或者某个区域内走逃企业总数的统计类需求。66.本技术实施例基于装袋算法和lightgbm构建预测模型,在提升模型准确度的同时极大缓解了模型过拟合的现象。其中,lightgbm模型的使用大大降低了模型训练时对物理内存的占用,能够用更大的数据量和更高维度的特征进行模型的训练,精确度更高,提升了对走逃企业预测准确性的同时,减少了客诉。67.作为一种优选的执行方式,由于预测模型存在较多特征,全部手动传参极其费力费时,因此,可以对数据流进行优化,具体的,可以配置数据库的接口调度策略,该接口调度策略用于实现输入字段对应关联字段的调用,使得只需要部分字段,即可从数据库中获取得到剩余字段,具体过程可以如下:68.第一步、接收输入字段;69.第二步、利用后端sql查询所述输入字段对应的条目信息;70.第三步、将所述条目信息中的其他字段信息和所述输入字段作为参数输入至所述预测模型。71.用户只需输入特定字段,用输入的字段去数据库结果表中搜索对应的唯一条目,并将该条目的其它字段作为参数一并传入接口当中。上述过程可以简化用户的操作,增强用户的使用体验。72.下面对本技术实施例提供的走逃企业的预测系统进行介绍,下文描述的预测系统与上文描述的走逃企业的预测方法可相互对应参照。73.参见图2,图2为本技术实施例所提供的一种走逃企业的预测系统结构示意图,本技术还提供一种走逃企业的预测系统,包括:74.数据获取模块,用于获取待建模数据特征;75.抽样模块,用于对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;76.模型生成模块,用于对每个所述抽样样本数据分别进行lightgbm建模,得到预测模型;77.特征权重确定模块,用于利用所述预测模型根据平均信息熵增益输出每个特征的特征权重;78.预测模块,用于利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。79.基于上述实施例,作为优选的实施例,还包括:80.读入数据处理模块,用于根据建模需求,并确定所述建模需求中的特征获取规则和业务要求;根据所述特征获取规则生成特征宽表;读取所述特征宽表,根据所述业务要求对所述读入数据进行特征工程处理;其中,所述特征工程处理包括缺失值填充、过采样、负采样、数值化类别特征、衍生变量中一项或任意几项的组合。81.本技术还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。82.本技术还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。83.说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。84.本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想。应当指出,对于本
技术领域:
:的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。85.还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。当前第1页12当前第1页12
技术特征:
1.一种走逃企业的预测方法,其特征在于,包括:获取待建模数据特征;对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;对每个所述抽样样本数据分别进行lightgbm建模,得到预测模型;利用所述预测模型根据平均信息熵增益输出每个特征的特征权重;利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。2.根据权利要求1所述的预测方法,其特征在于,还包括:根据建模需求,并确定所述建模需求中的特征获取规则和业务要求;根据所述特征获取规则生成特征宽表;读取所述特征宽表,根据所述业务要求对所述读入数据进行特征工程处理;其中,所述特征工程处理包括缺失值填充、过采样、负采样、数值化类别特征、衍生变量中一项或任意几项的组合。3.根据权利要求1所述的预测方法,其特征在于,得到预测模型之后,还包括:使用graphviz绘制各所述预测模型对应决策树的结构。4.根据权利要求1所述的预测方法,其特征在于,还包括:根据所述特征重要性指标对所述预测模型的模型特征进行校验,优化和/或删除异常特征后,重新训练所述预测模型。5.根据权利要求1所述的预测方法,其特征在于,还包括:接收输入字段;利用后端sql查询所述输入字段对应的条目信息;将所述条目信息中的其他字段信息和所述输入字段作为参数输入至所述预测模型。6.根据权利要求1所述的预测方法,其特征在于,利用所述预测模型对读入数据进行走逃企业预测,得到预测结果之后,还包括:将所述预测结果存储于预设数据库。7.根据权利要求1所述的预测方法,其特征在于,利用所述预测模型根据平均信息熵增益输出每个特征的特征权重之后,还包括:利用lime对所述读入数据执行基于数据生成的回归建模,得到所有特征在所述读入数据上的重要性分数。8.一种走逃企业的预测系统,其特征在于,包括:数据获取模块,用于获取待建模数据特征;抽样模块,用于对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;模型生成模块,用于对每个所述抽样样本数据分别进行lightgbm建模,得到预测模型;特征权重确定模块,用于利用预测模型根据平均信息熵增益输出每个特征的特征权重;预测模块,用于利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被
处理器执行时实现如权利要求1-7任一项所述的走逃企业的预测方法的步骤。10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1-7任一项所述的走逃企业的预测方法的步骤。
技术总结
本申请提供一种走逃企业的预测方法,包括:获取待建模数据特征;对待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;对每个抽样样本数据分别进行LightGBM建模,得到预测模型;利用预测模型根据平均信息熵增益输出每个特征的特征权重;利用预测模型对读入数据进行走逃企业预测,得到预测结果。本申请在提升模型准确度的同时极大缓解了模型过拟合的现象。大大降低了模型训练时对物理内存的占用,能够用更大的数据量和更高维度的特征进行模型的训练,精确度更高,提升了对走逃企业预测准确性的同时,减少了客诉。本申请还提供一种走逃企业的预测系统、计算机可读存储介质和电子设备,具有上述有益效果。具有上述有益效果。具有上述有益效果。
技术研发人员:陈泓 沈懿忱 杨占强 刘子星 孙琦 戴宁
受保护的技术使用者:税友信息技术有限公司
技术研发日:2021.12.21
技术公布日:2022/3/8