客户流失数据挖掘论文

2022-04-21

摘要:客户流失是企业要面临的重要问题之一,为了能够有效帮助企业预防客户流失,提出基于企业的交易数据库,通过数据挖掘方式来分析客户的消费行为,构建客户流失特征,采用CART算法构造决策树模型,编程实现程序来处理流失特征数据,以来对客户流失行为进行预测。实验运行结果表明,该方法对客户流失预测效果较好。今天小编为大家推荐《客户流失数据挖掘论文(精选3篇)》的相关内容,希望能给你带来帮助!

客户流失数据挖掘论文 篇1:

客户流失预测数据挖掘方法对比分析

1 客户流失预测常用技术

客户流失分析与建模是应用数据挖掘技术新的应用。简言之,预测模型是从数据库中发现模式,用于对未来的预测,客户流失预测模型简单的说就是从客户数据仓库中提取一定量的训练样本,经过预处理后形成训练集,通过数据挖掘方法形成预测模型,通过预测模型对新样本进行分类,预测出客户是否具有流失可能性。

作者:桂 洁 段继光 杨素科

客户流失数据挖掘论文 篇2:

基于数据挖掘的客户流失预测研究

摘要:客户流失是企业要面临的重要问题之一,为了能够有效帮助企业预防客户流失,提出基于企业的交易数据库,通过数据挖掘方式来分析客户的消费行为,构建客户流失特征,采用CART算法构造决策树模型,编程实现程序来处理流失特征数据,以来对客户流失行为进行预测。实验运行结果表明,该方法对客户流失预测效果较好。

关键词:数据挖掘;客户流失;决策树;CART算法

中文分类号:TP391.3 文献标识码:A

开放科学(资源服务)标识码(OSID):

Research on Customer Churn Prediction Based on Data Mining

LI Wei, SUN Xin-jie, CHEN Wei

(College of mathematics and information engineering, Liupanshui Normal University, Liupanshui 553004, China)

Key words: Data Mining; Customer Churn; Decision Tree; CART Algorithm

在當今市场竞争环境下,客户有了更多的消费选择和渠道,客户异动变得十分普遍,企业要保持好已经拥有的客户资源才能更好地盈利,因此如何提高客户的忠诚度来防止客户流程已经成为企业急需解决的问题。夏国恩等[1]研究了引入网络客户价值特征和情感特征,来构建基于客户行为特征分析的网络客户流失预测模型结构。于小兵等[2] 建立了客户流失预测模型,提出了改进粒子群优化算法,对电子商务客户样本进行实证研究。但是对于企业而言,在实践上还存在一些问题。

本文通过数据挖掘方式来分析客户的消费行为,选取客户流失的特征,采用CART算法构造决策树模型,来对客户进行流失预测,为企业管理客户流失提供决策依据。

1 相关技术

决策树[3]在ID3算法被提出了之后,在机器学习和数据分析领域更得到快速发展。决策树是一种树状结构,每个叶子节点代表一个分类,非叶子节点是在某个特征上的划分,根据样本数据在该特征上的不同取值划分成多个子集。当进行分类时,学习构造决策树是一个自上而下的过程。决策树是一种监督学习,构造它的关键问题是在每一步如何选择适合的特征来拆分样本。

CART决策树是一种高效的非参数分类和回归方法,已经广泛应用在统计领域和数据挖掘技术中。由CART 模型构建的预测树在很多情况下比常用的统计方法构建的代数学预测准则更加准确,当数据越复杂且变量越多,算法的优越性就越明显。CART决策树从训练样本数据中学习决策树,通过构建树、修剪树和评估树来构建二叉树。如果终节点为分类变量,那么该树为分类树,CART采用GINI值衡量节点纯度,GINI值的计算公式为:

[GINI=1-i∈Ip2i]

当GINI值越大时,代表节点越不纯,节点分类或者预测的效果就越差。如果终节点为连续变量,则该树为回归树,采用样本方差衡量节点纯度,回归方差计算公式为:

[σ=i∈Ixi-μ2=i∈Ix2i-nμ2]

当方差的值越大时,代表该节点的数据越分散,预测的效果就越差。

2 构建客户流失特征

客户流失是指客户与企业不再有交易的关系,客户流失的原因主要有产品因素、服务因素、竞争者因素和客户自身因素等。企业客户流失的特征主要体现在如下三个方面:消费次数越来越少、平均消费金额越来越低和很长时间没有消费记录,因此可构造的三个客户流失特征[4]有总消费次数(frequency)、平均消费金额(average)以及最近一次消费时间距离当前的天数(recently)。选取交易数据库中客户信息表和订单表,并对这两个表进行连接操作,通过分组聚合的方式进行查询得到每个客户的总消费次数、平均消费金额和最近一次的消费时间,以来构建预测客户流失的特征。添加一个表示客户流失类型字段type后,得到的新表模式为(UID,frequency,average,recently,type),并基于该表的数据进行客户流失预测。

3 设计实现

将构建客户流失特征后的数据分为训练集和测试集两部分,采用CART算法构造决策树模型,对准流失的客户进行预测。算法的程序流程如图1所示,当选择分裂属性进行分裂时,要遍历三个客户流失特征属性,并且选择每个属性的最优分裂方法,对比每个属性的分裂效果,最后选择该节点最优的分裂属性。比较最优的分裂属性需要计算每个分裂属性分裂后的GINI值或样本方差,前面已经给出它们的计算公式。构造完成决策树后,再采用代价复杂度(CCP)的方法,选择表面误差率增益值最小的非叶子节点进行剪枝[5]。

4 实验分析

执行编写的CART决策树算法程序,对构建客户流失特征表数据进行处理分析,得到表中每个客户的流失类型值。实验预测结果如表1所示,流失类型有三个值是非流失、已流失和准流失,非流失客户为还将有消费的正常客户,已流失客户为很长时间没有消费记录的客户,准流失客户为预测将要流失的客户。企业应对准流失客户引起高度重视,采取必要措施挽留客户,例如保证产品质量、提高服务水平和推荐新的产品等,以来更好地实现盈利目标。

5 结语

本文提出对客户的消费行为进行数据挖掘,构建客户流失特征,采用CART决策树算法进行编程,分析处理客户流失特征数据,对客户流失进行预测,为企业下一步的决策提供参考。未来工作中研究的重点是采用大数据技术对处理算法进行并行化改进,以来加快程序的处理速度。

参考文献:

[1] 夏国恩, 马文斌, 唐婵娟, 张显全. 融入客户价值特征和情感特征的网络客户流失预测研究[J]. 管理学报, 2018, 15 (3):442-449.

[2] 于小兵, 卢逸群. 电子商务客户流失预警与预测[J]. 系统工程, 2016, 34(9):37-43.

[3] Jiawei Han, MIcheline Kamber, Jian Pei.數据挖掘:概念与技术[M]. 北京: 机械工业出版社, 2012.

[4] 李伟, 秦鹏, 胡广勤, 张毓福. 基于商业大数据的客户分类方案[J].六盘水师范学院学报, 2017, 29(6):38-41.

[5] 李国和, 王峰, 郑阳, 吴卫江, 洪云峰, 周晓明. 基于决策树生成及剪枝的数据集优化及其应用[J]. 计算机工程与设计, 2018, 39(1): 205-211.

【通联编辑:王力】

作者:李伟 孙新杰 陈伟

客户流失数据挖掘论文 篇3:

数据挖掘技术下的银行客户流失决策树预测算法

摘要:在银行客户流失预测系统中经常要通过客户数据对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。在对客户的预测中,经常需要对他们的某种分类属性进行分类规则挖掘。该文主要探讨使用决策树这种常用的有效的方法来对客户数据进行分类规则挖掘。

关键词:决策树,客户流失,关联规则, 数据挖掘

Key words: decision trees; Churn; association rules; data mining

网络信息化飞速发展的今天,传统的商业模式发生了质的变化。在金融领域里,随着客户对银行推出的产品及其服务的预期要求的不断提高,导致各家银行之间的竞争更加白热化。在此环境下客户的忠诚度成为建立和维持客户关系,各家银行取得竞争优势的重要指标。基于数据挖掘技术和数据仓库技术为基础的客户关系管理系统,成为解决该问题的有效方法。而银行客户流失预测系统作为客户关系管理系统中的一个重要组成部分经常要通过客户数据对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。在对客户的预测中,经常需要对他们的某种分类属性进行分类规则挖掘。该文主要探讨使用决策树这种常用的有效的方法来对客户进行分类规则挖掘。

1 决策树技术概述

决策树是数据挖掘中一种常用的技术,它既可以用来分析数据,同时也可以对数据进行预测。为什么要选择决策树技术来分析银行客户流失情况呢? 因为从银行己有的客户流失情况作为基础数据进行统计,可以分析出一定的规则,从而为判断现有客户的忠诚度提供必要的指导。虽然分析判断客户流失情况的计算量不大,但分析完成后,需要知道每个客户流失的主要原因,而决策树可以清晰的显示出来。所以我们采用决策树技术进行分析,来为银行挽留客户提供必要的参考。

2 构造决策树的贪心算法

决策树贪心算法的构造,选取一个计算出来的预测流失率,该流失率为最能区分数据中不同样本类别的属性,让其作为决策树的树根,接下来再依次在每一块样本集中选出区分度最大的属性,作为决策树的下一层结点。自顶向下依此类推,直到所有的叶结点都只包含唯一样本时终止:

1)构造训练集

从数据仓储中提取描述训练集属性的元素和描述结果的元素,以备构造生成决策树使用。

2)决策树的生长

构造好训练集后,使用信息增益度量对每个属性域分裂的好坏做出量化,测试集合中的每个属性,选择具有最高信息增益的属性,让其作为决策树的初始分枝点即根节点。接下来再依次在每一块样本集中选出区分度最大的属性,作为决策树的下一层结点。自顶向下依此类推,直到分出所有的叶结点。

3 决策树技术预测银行客户流失

根据银行中现有的客户数据,结合上述提出的决策树贪心算法来预测哪些客户具有流失的特性,为其制定相应的服务和方案,从而最大程度地挽留住该客户。

1)构造训练集

从银行现有的客户数据中分类出客户相关数据,从数据中选取客户相关属性,使的构造训练集中包含如下字段:客户号属性,该属性为客户在该银行中定义的编号;业务量属性,该属性指的是客户在银行办理中间业务的种类数量,比如某客户在银行缴纳养老保险、办理公积金或商贷以及水电煤气费代扣,即该用户的业务量就是3种;客户类型属性,该属性分为个人客户(签约客户)、公共客户(非签约客户)、企业客户(签约客户)三种类型;参加营销业务属性,该属性判断用户是否参加过营销业务如理财产品、信托等;从事业属性,该属性体现客户所处的业范围如IT、金融等;是否忠诚客户属性,该属性体现客户是否会流失。2)银行客户状态决策树算法

2) 计算是否忠诚客户(Ifgood)的期望信息。4)通过步骤3)计算出的信息增益值,比较后选择最高信息增益值对应的属性作为分支结点,分支结点为是否参加银行的某次产品营销活动,选作测试属性,创造一个属性,用BusinessMarket标志,并对于每个属性值,引出一个分支。

5) 重复步骤3)和步骤4)的过程,直到树不再生长。然后把得到的两个分支作为初始分裂点分别计算出各属性的信息增益值,选出作为测试的属性,创建结点继续树的生长3)利用决策树进行未知客户流失预测

利用上述生成的决策树,可以对新的客户数据进行分析,从而对其流失可能性进行预测。 这里,两个客户的忠诚度为未知。我们用上述生成的决策树来判断其忠诚度。

对客户0901200,由于其没参加银行的某次营销活动,我们在如图2的决策树上转移到根节点的右儿子节点。在这个节点上,根据分支条件,再看其客户类型。由于它是企业客户,则转移到该节点的中间儿子节点。然后再根据该企业的业(即IT业)选择右儿子节点,这就到达了一个叶子节点,得到的结论是“NO”,即意味着该客户不是忠诚客户,很可能会流失。

对客户0901201,由于其参加了银行的某次营销活动,我们在如图2的决策树上转移到根节点的左儿子节点。在这个节点上,根据分支条件,再看其客户的业。由于它是金融业,则转移到该节点的左儿子节点。这就到达了一个叶子节点,得到的结论是“YES”,表明该客户是忠诚客户,不在流失的范围内。

4)决策树分析客户特征

根据最终生成的决策树不难看出,进行决策树分支最重要因素是营销业务属性,其次为客户类型、业务量、从事业。分析最终生成的决策树中的训练集数据,可以细分出如下8种群体的模型及特征。

4 总结

本文就银行客户流失预测中有关数据挖掘方法的应用进行了研究分析,将优化改进后的的算法应用到银行客户流失预测中,根据现有客户相关信息提出基于关联规则决策树的银行客户流失的预测算法。能够较准确地筛选出符合流失因素的客户,从而为筛选出的流失客户制定相应的方案和服务,最大程度地挽留他们,对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。

参考文献:

[1] Dunham M H.数据挖掘教程[M].郭崇惠,田凤占,靳晓明,等,译.北京:清华大学出版社,2005:65-104.

[2] 王颖.基于数据挖掘技术的银行客户关系管理[D].贵阳:贵州大学,200:26-34.

[3] 高洪深:决策支持系统(DSS)—理论、方法、案例[M].2版.北京:清华大学出版社,2000.

[4] 苏新宁,杨建林.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003.

[5] 莫笛.电子商务营销平台的研究与设计[D].杭州:浙江大学,2008.

[6] 决策树技术在网上书店系统中的应用[EB/OL].[2012-07-03].http://www.studa.net/electronic/090108/08532820.html.

作者:石杨 岳嘉佳

上一篇:课题实践平面设计论文下一篇:通信网络安全研究论文