1.本发明涉及数据处理领域,尤其涉及基于随机森林的电动汽车充电站充电流失用户预测方法。
背景技术:
2.随着信息技术的快速发展,电动汽车充电站充电流失用户已经成为电动汽车充电站运营商急需解决的问题。现在的运营商主要通过统计用户的个人信息数据,并由专业人员通过对过去的数据、资料的总结,结合自身经验进行分析和判断,作出用户流失的预警。
3.预测电动汽车充电站用户流失,传统的方式主要是通过人工经验进行判别,容易受个人经验影响,精准度和预警效率都比较低。
技术实现要素:
4.本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供基于随机森林的电动汽车充电站充电流失用户预测方法,以提高精准度和预警效率目的。为此,本发明采取以下技术方案。
5.基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于步骤:
6.1)获取数据,包括充电桩半年内充电交易记录数据和充电桩资产明细数据;
7.2)数据预处理:对存在缺失、异常的数据进行处理,按用户进行数据整合,得到充电用户指标宽表,并基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;充电用户指标宽表内容包括:充电用户观察期内充电活跃情况、充电过程遇到的设备故障情况、享受到的充电优惠情况、用户账户余额状况和投诉情况;数据预处理包括:
8.201)缺失值的处理:将缺失值调整为固定值;包括均值、中间值、一个指定的常数,或将缺失值调整为一个服从正态分布的随机值;
9.202)异常值的处理:异常值用3个标准差的最大值或最小值替换,将异常值调整为距离最近的正常值;异常值要检验异常值出现的原因,并相应的处理异常值;如果异常值没有业务含义,则直接剔除异常值,或用空值null来替代异常值;
10.203)按用户进行数据整合:指标数据经过异常值处理、缺失值处理后,确保每个用户只有一个对应的指标值;基于用户id,将各充电指标关联,得到充电用户指标宽表;
11.204)相关衍生变量的生成:衍生变量是服务模型建设的变量,基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;
12.3)将经数据预处理后的数据输入充电流失用户预测模型中,生成已流失充电用户清单及预测流失的充电用户清单,输出充电流失风险高、中、低用户标签,通过用户画像实现风险的准确预判;所述充电流失用户预测模型基于随机森林算法进行建模;
13.4)当用户群体数据随着时间发生变化时,则需要对充电流失用户预测模型模型进行重建、迭代优化。
14.作为优选技术手段:在步骤3)中,采用的充电流失用户预测模型的构建包括以下
步骤:
15.a)收集原始数据;
16.b)数据预处理:对少数类样本进行分析;并根据少数类样本人工合成新样本添加到数据集中;
17.c)对样本用户群进行分类,总的样本用户群体分流失用户和未流失用户,在总的样本用户群体基础上分为训练集和测试集;
18.d)通过训练集数据进行训练,结合训练结果进行模型调参,完成模型训练;
19.d01)在训练集中抽取k个训练样本;
20.d02)等概率抽取属性子集;
21.d03)生成技术属性子集指数;
22.d04)选择最优属性分支
23.d05)得到节点分支;
24.d05)判断是否满足结束训练的条件,若是则生成k棵决策树,若否,则返回步骤d02);直至完成基于随机森林的充电流失用户预测模型训练;
25.e)使用测试集验证模型结果,避免过拟合或者拟合不足的问题;
26.f)对模型整体效果进行评估,若评估结果满足条件,则根据评估结果,调整参数,并返回步骤d)再次优化迭代模型。
27.作为优选技术手段:样本均衡处理时采用smote合成少数类过采样技术的算法,使得样本均衡处理后的流失样本和未流失样本数接近或相同。
28.作为优选技术手段:在步骤f)中,使用roc曲线、auc值以及ks值对模型进行初步评估,同时结合混淆矩阵,对模型的初步效果进行评价;模型效果包括准确率、精度、召回率;
29.一、准确率:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比;也就是损失函数是0-1损失时测试数据集上的准确率;
30.accuracy=(tp+tn)/(tp+tn+fp+fn)
31.二、精度:预测正类预测正确的样本数,占预测是正类的样本数的比例;
32.precision=tp/(tp+fp)
33.三、召回率:预测正类预测正确的样本数,占实际是正类的样本数的比例;
34.recall=tp/(tp+fn)
35.其中:
36.tp:被判定为正样本,事实上也是正样本;
37.tn:被判定为负样本,事实上也是负样本;
38.fp:被判定为正样本,但事实上是负样本;
39.fn:被判定为负样本,但事实上是正样本。
40.作为优选技术手段:当准确率、精度或召回率小于设定值时,则结合业务情况进一步进行参数调整;参数调整利用网格搜索的方式,将指定的参数范围进行穷举搜索;选取比较好的前3个参数组合方式进行分析;参数包括不纯度的衡量指标、随机森林树的数量、限制分枝时考虑的特征个数、树的最大深度、一个节点在分枝后的每个子节点最少包含的样本数量,一个节点必须包含最小样本数。
41.作为优选技术手段:当模型一开始的拟合效果不好,在后序的参数调整时,基于比
较好的前3个参数组合方式,不纯度的衡量指标选择使用信息熵;随机森林树的数量中选取数量较少的,限制分枝时考虑的特征个数采用auto;一个节点在分枝后的每个子节点最少包含的样本数量选择样本数量较多,一个节点必须包含最小样本数选择较多。
42.作为优选技术手段:在步骤2)中,指标设计模块中变量定义为:
[0043][0044]
[0045]
[0046][0047][0048]
作为优选技术手段:在步骤3)中,根据观察期数据预测表现期的流失用户,其中观
察期为28日,表现期为未来14日;表现期提取目标变量,即是否流失;观察期用于提取电动汽车充电用户在各个维度上的指标变量;充电流失用户预测模型的目标变量为是否流失,其定义为:是,记为1,即为正样本;否,记为0,即为负样本。
[0049]
有益效果:
[0050]
一、本技术方案基于用户充电明细数据、用户基础数据、充电站充电桩资产明细数据及充电站点的周边环境数据等数据信息,借助充电流失用户预测模型构建的充电用户流失预测方法,深入全面地对用户充电留存情况经进行分析,实现充电流失用户的精准预测,通过提前预判用户的流失倾向,为充电站的运营策略提供数据支持,并优化自身的运营策略,进行差异化运营,从而提升老用户的留存率,助力电动汽车充电站点的绿色健康发展。
[0051]
二、在数据方面,以充电站充电采集系统等数据为基础,而随机森林算法对数据特征维度要求低,泛化能力强,且保持较高的可解释性,可以很好地反映不同用户的充电用户流失可能性。
[0052]
三、可以批量输出用户的充电流失概率,极大的提高了数据分析效率,方便快捷的判断每个用户的流失风险,从而可以进一步采取相应措施,提高充电用户留存率。
[0053]
四、基于随机森林算法模型的充电流失用户预测方法,通过机器学习算法,建立充电流失用户概率模型,输出充电流失风险高、中、低用户标签,通过用户画像实现风险的准确预判。
附图说明
[0054]
图1是本发明的流程图。
[0055]
图2是本发明的观察期和表现期的划分图。
[0056]
图3是本发明的数据预处理图。
[0057]
图4是本发明的随机森林训练过程图。
[0058]
图5是smote过程图。
[0059]
图6是随机森林模型ks与roc曲线图。
[0060]
图7是本发明的调参前混淆矩阵图。
[0061]
图8是本发明的调参后ks与roc曲线图。
[0062]
图9是本发明的调参后混淆矩阵图。
[0063]
图10是本发明的逻辑回归算法roc曲线图。
[0064]
图11是本发明的神经网络算法roc曲线图。
[0065]
图12是本发明的随机森林算法roc曲线图。
[0066]
图13是本发明的充电流失用户预测模型建立与迭代流程图。
具体实施方式
[0067]
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
[0068]
如图1所示,本发明包括以下步骤:
[0069]
基于随机森林的电动汽车充电站充电流失用户预测方法,包括如下步骤:
[0070]
1)获取数据,包括充电桩半年内充电交易记录数据和充电桩资产明细数据;
[0071]
2)数据预处理:对存在缺失、异常的数据进行处理,按用户进行数据整合,得到充
电用户指标宽表,并基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;充电用户指标宽表内容包括:充电用户观察期内充电活跃情况、充电过程遇到的设备故障情况、享受到的充电优惠情况、用户账户余额状况和投诉情况;数据预处理包括:
[0072]
201)缺失值的处理:将缺失值调整为固定值;包括均值、中间值、一个指定的常数,或将缺失值调整为一个服从正态分布的随机值;
[0073]
202)异常值的处理:异常值用3个标准差的最大值或最小值替换,将异常值调整为距离最近的正常值;异常值要检验异常值出现的原因,并相应的处理异常值;如果异常值没有业务含义,则直接剔除异常值,或用空值null来替代异常值;
[0074]
203)按用户进行数据整合:指标数据经过异常值处理、缺失值处理后,确保每个用户只有一个对应的指标值;基于用户id,将各充电指标关联,得到充电用户指标宽表;
[0075]
204)相关衍生变量的生成:衍生变量是服务模型建设的变量,基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;
[0076]
3)将经数据预处理后的数据输入充电流失用户预测模型中,生成已流失充电用户清单及预测流失的充电用户清单,输出充电流失风险高、中、低用户标签,通过用户画像实现风险的准确预判;所述充电流失用户预测模型基于随机森林算法进行建模;
[0077]
4)当用户群体数据随着时间发生变化时,则需要对充电流失用户预测模型模型进行重建、迭代优化等。
[0078]
以下就部分步骤做进一步地说明:
[0079]
一、数据采集
[0080]
采集的数据主要包含车联网平台国网充电桩半年内充电交易记录数据,车联网商户平台所有国网充电桩资产明细数据,具体数据库表信息如下:
[0081]
表1数据信息
[0082]
中文表明英文表明来源表数据范围说国网充电记录表state_charging数据库近半年交易数据国网桩明细表state_piles数据库 [0083]
二、指标设计
[0084]
电动汽车充电用户流失预测模型的宽表从充电用户观察期内充电活跃情况、充电过程遇到的设备故障情况、享受到的充电优惠情况、用户账户余额状况、投诉情况等方面进行设计,具体变量设计如下表:
[0085]
表2指标体系设计表
[0086]
[0087]
[0088]
[0089][0090]
三、建模群体构建
[0091]
根据电动汽车充电桩充电用户充电交易行为分析,目前充电站日均活跃老用户(距离首次充电天数大于14天)约1.04万人,而其中约有1250人将在接下来的14天内不再使
用充电桩进行充电,即当前时间点的14日流失率为12%左右。为了预测当天的未来14日流失用户,并提前对他们进行干预从而提升老用户的留存率,我们将进行数据分析并建立以下样本划分方法。
[0092]
根据以上业务需求和背景分析,对充电客户行为数据设计了观察期和表现期,示意如图2所示。观察点即为观测点,为当下的时间,预测未来14天内用户是否会流失的基准点。以观察点作为分界点,将时间分成观察期与表现期两段,表现期用于提取目标变量(是否流失),观察期用于提取电动汽车充电用户在各个维度上的指标变量。本模型的目标变量为是否流失(survived),其定义如下:
[0093]
是,记为1(正样本):如今天(如7月1日),接下来14天内(7月2日至7月15日)未充电;
[0094]
否,记为0(负样本):如今天(如7月1日),接下来14天内(7月2日至7月15日)至少一天有充电记录。
[0095]
表3是否流失用户分布比例
[0096]
是否流失是否总计频数1172918510357占比11.32%88.68%100%
[0097]
四、数据预处理
[0098]
由于用于充电流失用户预测的数据存在缺失、异常等问题,故需要对数据进行处理,数据处理主要包括对缺失值、异常值等记录进行清洗处理以及相关衍生变量的生成过程,具体顺序为:缺失值、异常值处理到衍生变量生成。如图3所示。
[0099]
(1)缺失值的处理方法
[0100]
将缺失值调整为某个固定值。如均值、中间值或一个指定的常数或将缺失值调整为一个服从正态分布的随机值。
[0101]
(2)异常值的处理方法
[0102]
当出现以上情况时,离群值可用3个标准差的最大值或最小值替换,将离群值调整为距离最近的正常值。异常值要检验异常值出现的原因,并相应的处理异常值。如果离群值或异常值没有业务含义,可直接剔除离群值或异常值或用空值null来替代离群值或异常值。
[0103]
(3)按用户进行数据整合
[0104]
指标数据经过异常值处理、缺失值处理后,应确保每个用户只有一个对应的指标值。基于用户id,将各充电指标关联,得到充电用户指标宽表。
[0105]
(4)相关衍生变量的生成
[0106]
衍生变量是服务模型建设的变量,基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量。
[0107]
五、模型构建
[0108]
5.1建模总体思路
[0109]
充电流失用户预测模型的建模思路为:首先是从车联网平台、电动汽车公司等渠道进行源数据梳理,从充电信息、用户信息等维度进行指标数据提取;其次对样本用户群进行分类,总的样本用户群体分为目标组和对照组,在基础用户群基础上分为训练集和测试集;接着通过训练集数据对机器学习模型进行训练,结合训练结果进行模型调参,完成模型训练;使用测试集验证模型结果,避免过拟合或者拟合不足的问题;然后对模型整体效果进
行评估,并根据评估结果再次优化迭代模型,最终输出已流失充电用户清单及预测流失的充电用户清单。
[0110]
5.2模型建设
[0111]
以用户充电信息维度下的指标为基础,利用分类算法对用户未来14天内是否会流失进行预测。充电站充电流失用户预测模型建模优先考虑预测精度较高、可解释性相对较强并且速度较快的算法,本文对充电流失风险的研究优先采用随机森林算法。
[0112]
随机森林算法于2001年由leo breiman提出,是一种集成学习方法,以决策树为基本学习单元,包含多个由bagging集成学习理论和随机子空间方法训练得到的决策树输入待分类的样本,由各个决策树产生各分类结果,最终的分类结果由各个决策树的结果进行投票决定。其核心思想包含bagging思想和随机子空间思想,其本质是利用组合多颗决策树做出预测的多决策树模型。如图4所示,随机森林的具体操作步骤如下:
[0113]
(1)基于原始训练集,运用bootstrap方法有放回地随机抽取k个新的自助样本集。在此基础上构建k棵分类树,未被抽取的样本集归入袋外数据。
[0114]
(2)设置n个特征项,在每棵树的对应节点处随机抽取m
try
个特征,计算每个特征蕴含的信息量,通过选取最具分类能力的特征进行节点分裂。
[0115]
(3)将生成的多棵决策树组成随机森林,用随机森林分类器对新的数据进行判别与分类,森林中的每一棵树都对新的数据进行预测和投票,最终得票最多的分类项即为随机森林对该数据的预测结果。
[0116]
在随机森林中,将生成很多的决策树,并不像在cart模型里一样只生成唯一树。当在基于某些属性对一个新的对象进行分类判别时,随机森林中的每一棵树都会给出自己的分类选择,并由此进行“投票”,森林整体的输出结果将会是票数最多的分类选项。基于随机森林算法的一般步骤,在构建充电流失风险模型时,将按照以下步骤进行。
[0117]
5.2.1样本均衡处理
[0118]
很多模型算法都有一个默认的假设,样本中各个类别的样本数目是均衡的,但是如果样本不均衡,就需要用一些方法进行处理。smote(synthetic minority oversampling technique)即合成少数类过采样技术,是一种综合采样人工合成数据算法,用于解决数据类别不平衡问题(imbalanced class problem),以over-sampling少数类和under-sampling多数类结合的方式来合成数据,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(specific)而不够泛化(general),smote算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,具体如图5所示,算法流程如下:
[0119]
(1)对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
[0120]
(2)根据样本不平衡比例设置一个采样比例以确定采样倍率n,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。
[0121]
(3)对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本。
[0122][0123]
首先随机抽取原数据(共10,357条,未流失样本9185条,流失样本1172条),由于本
模型要预测的类别存在不平衡问题,即流失用户占比较低,仅为11.32%,需要对流失样本进行过采样以平衡类别,样本均衡处理方法选择smote(合成少数类过采样技术)算法。经过样本均衡处理后,流失样本和未流失均为9185条。
[0124]
5.2.2随机森林模型初步构建与评估
[0125]
对样本进行常规的随机森林模型构建。首先对样本集进行拆分,拆分的比例为7:3,即七成的样本为训练集,三成的样本为测试集。随机森林模型树的数量暂定为100棵,其他的参数选用默认的参数。为了得到对模型最直观评估,本模型使用roc曲线、auc值以及ks值对模型进行初步评估,同时结合混淆矩阵,对模型的初步效果进行评价。
[0126]
roc曲线说明
[0127]
roc全称是“受试者工作特征”(receiver operatingcharacteristic)曲线。我们根据学习器的预测结果,把阈值从0变到最大,即刚开始是把每个样本作为正例进行预测,随着阈值的增大,学习器预测正样例数越来越少,直到最后没有一个样本是正样例。在这一过程中,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了“roc曲线”。
[0128]
roc曲线的横坐标是伪阳性率(也叫假正类率,false positive rate),纵坐标是真阳性率(真正类率,true positive rate),相应的还有真阴性率(真负类率,true negative rate)和伪阴性率(假负类率,false negative rate)。这四类指标的计算方法如下:
[0129]
(1)伪阳性率(fpr):判定为正例却不是真正例的概率,即真负例中判为正例的概率。
[0130]
(2)真阳性率(tpr):判定为正例也是真正例的概率,即真正例中判为正例的概率(也即正例召回率)。
[0131]
(3)伪阴性率(fnr):判定为负例却不是真负例的概率,即真正例中判为负例的概率。
[0132]
(4)真阴性率(tnr):判定为负例也是真负例的概率,即真负例中判为负例的概率。
[0133]
auc值说明
[0134]
auc(area under curve)被定义为roc曲线下的面积。我们往往使用auc值作为模型的评价标准是因为很多时候roc曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应auc更大的分类器效果更好。
[0135]
表4auc判断分类器(预测模型)优劣的标准
[0136][0137]
ks值说明
[0138]
ks(kolmogorov-smirnov)评价指标,通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力。
[0139]
·
ks值《0.2,一般认为模型没有区分能力。
[0140]
·
ks值[0.2,0.3],模型具有一定区分能力,勉强可以接受
[0141]
·
ks值[0.3,0.5],模型具有较强的区分能力。
[0142]
·
ks值大于0.75,往往表示模型有异常。
[0143]
通过roc曲线对该次模型构建效果的评价分析,如图6所示,展示了模型的roc曲线,模型的auc值为0.778,ks值为0.415,对应auc的评判标准模型效果一般。
[0144]
除了可以通过auc值和ks值去判断模型效果,还可以根据模型结果的混淆矩阵得出模型的准确率、精度、召回率去判断模型效果。以下为相关说明如下:tp,tn,fp,fn说明
[0145]
tp(true positive):被判定为正样本,事实上也是正样本。
[0146]
tn(true negative):被判定为负样本,事实上也是负样本。
[0147]
fp(false positive):被判定为正样本,但事实上是负样本。
[0148]
fn(false negative):被判定为负样本,但事实上是正样本。
[0149]
准确率
[0150]
对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率。
[0151]
accuracy=(tp+tn)/(tp+tn+fp+fn)
[0152]
精度
[0153]
它计算的是预测正类预测正确的样本数,占预测是正类的样本数的比例。
[0154]
precision=tp/(tp+fp)
[0155]
召回率
[0156]
它计算的是预测正类预测正确的样本数,占实际是正类的样本数的比例。
[0157]
recall=tp/(tp+fn)
[0158]
将模型代入到测试集,进行模型评价分析。如图7所示,根据构建的混淆矩阵可以看出,事实上是负样本,被预测为负样本的数量相对较多,对实际开展工作意义不大;事实上是正样本,但被预测为正样本的比列不高;因此,计算出来的样本正确率、精度和召回率中,除了正确率较高,为96.8%外;样本精度和召回率都比较低,分别为65.9%和24.3%。由此看出,模型还需结合业务情况进行进一步的参数调整。
[0159]
5.2.3模型参数调整
[0160]
对模型进行参数优化。由于调参前的模型评价效果并不好,所以需要对随机森林模型中的重要参数进行调优。训练集和测试集的拆分仍然按照7:3的比例进行拆分,调优的思路是利用网格搜索的方式,将指定的参数范围进行穷举搜索。选取比较好的前3个参数组合方式进行分析。需要调节的参数如下:
[0161]
表5参数说明表
[0162][0163][0164]
将上述参数利用网格搜索法进行搜索,耗时96秒后,寻找出了20个备选方案。从中选取了前3个效果最好的方案进行分析,以期待得到耗时、效果较好的参数组合。
[0165]
表6参数方案表
[0166]
参数方案一方案二方案三criterionginiginientropyn_estimators50100100max_featureslog2autoautomax_depth777min_samples_split70130150min_samples_leaf201010test_score0.8430.8420.842
[0167]
criterion的选择上,基尼系数和信息熵的差别不大,但由于信息熵对不纯度更加敏感,决策树的生长会更加精细。考虑到模型一开始的拟合效果并不好,因此参数criterion的选择使用信息熵entropy;n_estimators中选取数量较少的,即50棵树;max_features选择
‘
auto’;max_depth都为7个,因此最大深度选择7;min_samples_split和min_samples_leaf均选择样本数量较多的即min_samples_split选择150个,min_samples_leaf选择20个。综合而言,最终确定的参数为:
[0168]
表7最终参数方案
[0169]
[0170][0171]
5.2.4调参后模型评估
[0172]
按照网格搜索确定的参数进行随机森林模型的训练,将训练集和测试集按7:3的比例随机拆分,各重要参数的取值按照最终分析得到的取值进行输入。将调优后的模型进行roc曲线拟合,如图8所示,调参后auc值与ks值分别为0.851和0.5476,远高于调参前的0.778和0.415。
[0173]
同时,对测试样本进行模型验证。如图9所示,由调参前的96.8%下降为86.3%,但模型的精度和召回率均得到明显的提高,精度由65.9%上升为99.7%;召回率由24.3%上升为72.89%,进一步验证了调优后的模型能更好地应用于充电流失用户预测的场景中。
[0174]
5.3算法验证
[0175]
为确保算法的稳健性,将充电流失用户预测模型相关指标还进行了逻辑回归、神经网络模型训练。随机森林、逻辑回归和神经网络是常用的分类算法,算法的优缺点对比如下:
[0176]
表8算法优缺点对比表
[0177][0178][0179]
根据实际的充电流失场景进行算法对比,在算法调用过程中进行简单的超参调整,包括结构参数、标准化规则、变量筛选、阈值参数等。最终通过时间和准确率类指标的描述,可以看出随机森林相比较于逻辑回归和神经网络。算法训练过程roc曲线图如图10、11、12所示。
[0180]
由图表可以看出,逻辑回归的auc值为0.7333,算法处理时间为2.7秒,神经网络的auc值为0.8113,处理时间为380秒。相比较于逻辑回归算法和神经网络算法,随机森林具有
较高的auc值(0.851),时间上仅用1.2秒。综合训练结果,随机森林算法最适合于充电流失用户识别场景。
[0181]
表9算法差异效果分析表
[0182]
评价指标/算法类型随机森林(rf)逻辑回归(lr)神经网络(fnn)auc值0.8510.73330.8113时间(s)1.22.7380
[0183]
5.4模型输出
[0184]
通过充电流失用户预测模型,输出充电站潜在充电流失用户清单,通过提前预判用户的流失倾向,为充电站的运营策略提供数据支持,并优化自身的运营策略,进行差异化运营,从而提升老用户的留存率,助力电动汽车充电站点的绿色健康发展。
[0185]
表10充电流失用户预测模型的输出结果
[0186]
[0187]
[0188][0189]
结合输出的流失概率,可对其划分不同的区间段,将充电流失用户风险划分为高、中、低,生成相应的标签,可对不同标签的用户采取差异化的挽留策略。
[0190]
表11充电用户流失风险等级标签规则设置表
[0191][0192]
5.5模型维护
[0193]
基于现有的模型分析总结,模型可以从以下几个方面做好维护工作:
[0194]
(1)模型运行初期,应密切观察预测的准确程度,以防不可预知的情况影响预测结果。
[0195]
(2)模型结果将输出用户是否流失的二值化标签,而非流失概率,也可针对不同的时期或营销活动,选择不同的阈值进行分类。当阈值设置较高时,则“漏掉的流失充电用户”会较多;阈值设置较低时,则“误判为流失用户的正常用户”会较多。
[0196]
(3)由于用户群体数据会随着时间发生变化,模型应该在一定的时间段后进行重建,模型建立与迭代流程如图13所示。
[0197]
六、应用场景
[0198]
通过分析充电站充电用户的充电特征,可有效支撑充电站运营单位的用户运营服务精益化管理,提高充电用户的留存率,提高充电站的运营效率,使得运营工作的开展有的放矢,进一步降低用户流失风险和改善用户充电体验。充电站运营单位主要应用场景如下:
[0199]
(1)预流失用户预警:当找出预流失用户后,则需要对用户进行一定的挽回,看出用户数据指标下降后,对用户进行针对性的引导,提升用户在端内的使用行为,对即将流失的用户进行挽留措施,比如福利刺激,折扣诱导等。
[0200]
(2)定向运营:通过用户充电流失模型,根据用户的流失风险、充电习惯等,对不同的用户群体定向进行不同的活动刺激,提高运营效率,同时可避免群发信息对充电用户造成干扰,提升用户的使用体验。
[0201]
以上所示的基于随机森林的电动汽车充电站充电流失用户预测方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。
技术特征:
1.基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于包括以下步骤:1)获取数据,包括充电桩半年内充电交易记录数据和充电桩资产明细数据;2)数据预处理:对存在缺失、异常的数据进行处理,按用户进行数据整合,得到充电用户指标宽表,并基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;充电用户指标宽表内容包括:充电用户观察期内充电活跃情况、充电过程遇到的设备故障情况、享受到的充电优惠情况、用户账户余额状况和投诉情况;数据预处理包括:201)缺失值的处理:将缺失值调整为固定值;包括均值、中间值、一个指定的常数,或将缺失值调整为一个服从正态分布的随机值;202)异常值的处理:异常值用3个标准差的最大值或最小值替换,将异常值调整为距离最近的正常值;异常值要检验异常值出现的原因,并相应的处理异常值;如果异常值没有业务含义,则直接剔除异常值,或用空值null来替代异常值;203)按用户进行数据整合:指标数据经过异常值处理、缺失值处理后,确保每个用户只有一个对应的指标值;基于用户id,将各充电指标关联,得到充电用户指标宽表;204)相关衍生变量的生成:衍生变量是服务模型建设的变量,基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;3)将经数据预处理后的数据输入充电流失用户预测模型中,生成已流失充电用户清单及预测流失的充电用户清单,输出充电流失风险高、中、低用户标签,通过用户画像实现风险的准确预判;所述充电流失用户预测模型基于随机森林算法进行建模;4)当用户群体数据随着时间发生变化时,则需要对充电流失用户预测模型模型进行重建、迭代优化。2.根据权利要求1所述的基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于:在步骤3)中,采用的充电流失用户预测模型的构建包括以下步骤:a)收集原始数据;b)数据预处理:对少数类样本进行分析;并根据少数类样本人工合成新样本添加到数据集中;c)对样本用户群进行分类,总的样本用户群体分为流失用户和未流失用户,在总的样本用户群基础上分为训练集和测试集;d)通过训练集数据进行训练,结合训练结果进行模型调参,完成模型训练;d01)在训练集中抽取k个训练样本;d02)等概率抽取属性子集;d03)生成技术属性子集指数;d04)选择最优属性分支d05)得到节点分支;d05)判断是否满足结束训练的条件,若是则生成k棵决策树,若否,则返回步骤d02);直至完成基于随机森林的充电流失用户预测模型训练;e)使用测试集验证模型结果,避免过拟合或者拟合不足的问题;f)对模型整体效果进行评估,若评估结果满足条件,则根据评估结果,调整参数,并返回步骤d)再次优化迭代模型。
3.根据权利要求2所述的基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于:样本均衡处理时采用smote合成少数类过采样技术的算法,使得样本均衡处理后的流失样本和未流失样本数接近或相同。4.根据权利要求3所述的基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于:在步骤f)中,使用roc曲线、auc值以及ks值对模型进行初步评估,同时结合混淆矩阵,对模型的初步效果进行评价;模型效果包括准确率、精度、召回率;一、准确率:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比;也就是损失函数是0-1损失时测试数据集上的准确率;accuracy=(tp+tn)/(tp+tn+fp+fn)二、精度:预测正类预测正确的样本数,占预测是正类的样本数的比例;precision=tp/(tp+fp)三、召回率:预测正类预测正确的样本数,占实际是正类的样本数的比例;recall=tp/(tp+fn)其中:tp:被判定为正样本,事实上也是正样本;tn:被判定为负样本,事实上也是负样本;fp:被判定为正样本,但事实上是负样本;fn:被判定为负样本,但事实上是正样本。5.根据权利要求4所述的基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于:当准确率、精度或召回率小于设定值时,则结合业务情况进一步进行参数调整;参数调整利用网格搜索的方式,将指定的参数范围进行穷举搜索;选取比较好的前3个参数组合方式进行分析;参数包括不纯度的衡量指标、随机森林树的数量、限制分枝时考虑的特征个数、树的最大深度、一个节点在分枝后的每个子节点最少包含的样本数量,一个节点必须包含最小样本数。6.根据权利要求5所述的基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于:当模型一开始的拟合效果不好,在后序的参数调整时,基于比较好的前3个参数组合方式,不纯度的衡量指标选择使用信息熵;随机森林树的数量中选取数量较少的,限制分枝时考虑的特征个数采用auto;一个节点在分枝后的每个子节点最少包含的样本数量选择样本数量较多,一个节点必须包含最小样本数选择较多。7.根据权利要求6所述的基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于:在步骤2)中,指标设计模块中变量定义为:
8.根据权利要求7所述的基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于:在步骤3)中,根据观察期数据预测表现期的流失用户,其中观察期为28日,表现期为未来14日;表现期提取目标变量,即是否流失;观察期用于提取电动汽车充电用户在各个维度上的指标变量;充电流失用户预测模型的目标变量为是否流失,其定义为:是,记为1,即为正样本;否,记为0,即为负样本。
技术总结
本发明公开了基于随机森林的电动汽车充电站充电流失用户预测方法,涉及数据处理领域。本发明包括步骤:获取数据,包括充电桩半年内充电交易记录数据和充电桩资产明细数据;数据预处理:对存在缺失、异常的数据进行处理,按用户进行数据整合,得到充电用户指标宽表,并基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;基于充电流失用户预测模型算法构建的充电用户流失预测方法,深入全面地对用户充电留存情况经进行分析,实现充电流失用户的精准预测,通过提前预判用户的流失倾向,为充电站的运营策略提供数据支持,并优化自身的运营策略,进行差异化运营,从而提升老用户的留存率,助力电动汽车充电站点的绿色健康发展。电站点的绿色健康发展。电站点的绿色健康发展。
技术研发人员:俞晓吉 林瑞学 袁晟 刘远 董顺良 袁方期 黄善南 郭金金
受保护的技术使用者:国网浙江长兴县供电有限公司
技术研发日:2021.11.30
技术公布日:2022/3/8