数据挖掘在保险业中的运用_chengxiaoboke的空间_百度空间

摘要数据挖掘是一个应用统计学和人工智能等算法进行知识发现的过程。文章在车辆险的基础上重点探讨了保险行业如何利用数据挖掘的技术,包括数据仓库的建立、数据挖掘主题的定义和数据挖掘的过程。
关键词数据挖掘;数据挖掘技术应用;保险业务分析
中图分类号F84文献标识码A文章编号1008-1151(2006)02-0099-03

一、简介
随着技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长,而数据挖掘技术就是从数据中发现知识。数据密集型行业如保险、银行、电信等经过多年运营沉淀了大量的数据。挖掘、开发和利用这些数据可以使企业做出最适合的定位,将企业长期的积累的数据得以充分发挥,从而让企业在竞争中取得优势。
二、数据挖掘
许多企业用了很大力气去积累有关客户的信息,但是并不能有效地进行客户关系治理,因为信息只是一些原材料,经过组织、分析并理解后,才可以用来构建成有关客户的知识。而数据挖掘技术就可以完成对信息的处理。
数据挖掘,又称中的知识发现(KDD),是指从存放在、数据仓库或其他信息库中的大量数据中自动地发现相关模式、提取有潜在价值的信息、挖掘知识的过程。从CRM的角度来说,数据挖掘应用就是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并能够根据已有的信息对未来发生行为做出结果猜测,为企业经营决策、市场策划提供依据。
目前数据挖掘工具和软件已在各个行业得到很好的应用,并收到明显的效益。举例来说,在金融方面,银行的猜测存/xx趋势、优化存/xx策略可以用数据挖掘将市场分成有意义的群组和部门,从而协助市场经理和业务执行人员更好地集中于有促进作用的活动和设计新的市场运动;在客户关系治理方面,数据挖掘能找出产品使用模式或协助了解客户行为,从而可以改进通道治理,如银行分支和ATM等,又如正确时间销售就是基于顾客生活周期模型来实施的;在零售业/市场营销方面,是数据挖掘技术应用最早也是最重要的领域,可以用于顾客购货篮的分析,了解货架如何布置,选择较好的促销活动时间以及促销商品组合等。通过对一种厂家商品在各连锁店的市场共享分析,客户统计以及历史状况的分析,可以确定销售和广告业务的有效性。可见,数据挖掘在各行各业都有很多相应的例子,不再此一一枚举了。总之,数据挖掘可广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、、运输等各个企事业单位及国防科研上。据有关报导,数据挖掘的xxxx率有达400%甚至10倍的事例。
三、保险业务分析
随着国内经济的快速发展,保险业也进入了激烈竞争的时代。面对大量产生的保单业务,许多业内公司没有对大量的数据进行深层次的分析和挖掘,让海量数据发挥巨大的增值作用。其业务仓库中的数据组织方式是满足范式理论的,反映了业务上的组织方式,但与业务系统有本质不同,首先它是为将来分析应用而设计,以信息的表示、提取为主导,其次业务数据仓库中的数据是经过清洗的,且保存了所有的业务历史信息,{zd0}限度地保证了数据不失真。
例如:从车辆险的历史保单中,按照车辆种类、销售渠道、地区、职业、年龄、性别、学历、业务性质等条件分析出承保和理赔的数据。根据客户的盈利性分布通常呈现出价值倾斜:20%的客户往往产生200%的客户利润,而另外20%的客户产生的是损失价值,剩余的处于中间的客户对公司不产生任何的利润。因此从业务数据挖掘的目标就是分析导致了客户价值分布差异的原因。
初期分析的主要用户为项目相关的技术用户和操作用户。其中,决策治理层用户约5~15名,分析型用户15~30名。一般来说,保险公司有较高的数据分析要求,原始数据的规模已经较庞大,超过几百GB,可考虑根据实际需求情况和应用的目标,采用集中式实施的方案。即在总公司建立一套的数据仓库系统,为产寿险总公司和各分公司的用户提供服务,但用户的权限要进行限定,分公司的用户只能浏览本公司的数据,主要是基本信息的获取,而总公司利用全部数据来做高层次的综合分析,包括对所有分公司数据的操作权限。
四、如何在保险业应用数据挖掘技术
明确商业目标
应用数据挖掘的首要任务就是明确需要达到什么样的商业目标,并描述出需要解决的问题。目标的描述应该细化、清楚,以便于选择合适的挖掘方法,也方便检测数据挖掘效果,判定建立的模型的有效性。
数据预备
基于数据挖掘的商业目标,提取所需要的数据。为了保证数据的质量,除了对数据进行必要地检查和修正外,还需要考虑不同的数据源之间数据的一致性问题。
建立模型
建立模型是一个反复的过程。首先需要选择适合解决当前问题的模型。对模型的选择过程可能会启发对数据的理解并加以修改,甚至改变最初对问题的定义。
输出结果的评价和解释
模型建立好之后,必须评价其结果,解释其价值。在实际应用中,模型的准确率会随着应用数据的不同发生变化。但准确度自身并不一定是选择模型的正确评价方法。对输出结果的理解需要进一步了解错误的类型和由此带来的相关费用的多少。假如模型每个不同的猜测错误所需付出的代价也不同的话,代价最小的模型将是较好的选择。
直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满足后再向大范围推广。
实施
模型在建立并经验证之后,可以有两种主要的使用方法。一种是提供给分析人员做参考,由他通过查看和分析这个模型输出,并做出解释和方案建议;另一种是把模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一类客户打分等,还可以用模型在中选择符合特定要求的记录,以用其他工具做进一步分析。
五、应用举例
保险业中的车辆险分析架构设计
车辆险的业务数据源分布在多家分公司的业务系统中,利用数据抽取程序将各分公司业务系统上的数据通过自动化FTP或手动控制传到分公司自身的中间服务器上,进行抽取、清洗和转化处理。考虑到该步骤会造成大量的系统开销,所以采用独立的StagingArea服务器来专门处理数据抽取。抽取到中间层的数据经过转换/清洗,就可以根据不同的维度来生成CUBE,上载到中心服务器上最终为保单分析提供服务。在架构设计过程中,必须要结合保险业务特点和数据挖掘的特点进行架构设计。
系统结构设计
根据处理流程及设计的要求,给出系统结构图,其中的数据采集部分包括各地分支公司的,其中的数据来源于核心业务。为了保证系统间的数据安全和系统运行效率,生产环境和业务分析支持系统环境相互独立,在天天晚间按照抽取规则定时将生产环境的数据存储到数据处理区域中,以便进行数据清洗。

图1系统结构图
数据组织体系描述了项目{dy}阶段的数据模型化组织方式,具体包括业务数据仓库、业务信息仓库、主题汇总区、代码区四个部分。业务数据仓库包括按业务对象关系组织的数据,基于第三范式的数据模型。业务信息仓库则是按不同分析主题组织的数据,以星型结构为基础。主题汇总原则是对分析主题数据进行浅度汇总,以达到加快cube生成及支持大量查询应用的目的。代码区是统计分析系统进行过数据抽取、转换、清洗时的代码信息。数据组织的原则:
1.层次化:对于业务数据分三级进行组织,分别是按业务对象关系组织数据、按照具体的分析主题组织多维事实表和PowerCube多维立方体方式组织。
2.稳定性:所有三级数据的更新保留完整历史信息的原则,因为很多的业务统计报表大多是基于业务系统原有的业务数据,已经生成,并且提供给相关部门进行参考和决策。假如还需要修改和删除业务数据,就会造成整个数据体系的不一致,使统计分析结果不可信。
3.可扩展性:系统在开发时必须保留一定的可扩展性。即可以保证数据的准确性和完整性,从而具有良好的可扩展性。
实验及结果分析
随着保险业务的不断发展,现有的分析主题要求系统能够比较快速而准确的完成业务主题的增加和改变的工作。由于业务数据仓库已经存储了最xx和准确的业务历史数据,所以假如需要增加业务主题,只要将业务数据仓库作为数据源,将数据追加到业务信息仓库,同时更新DSA中的转换规则。
业务信息仓库主要是以星型结构为基础的面向主题的数据集市和多维存储维基础的多维数据集市。业务信息仓库中的分析是按照业务需要进行制定的,如客户分析主题、保单事件分析主题等。相关的指标数据都是存储在事实表中,分析角度都存储在纬度表中,数据粒度为保单明细数据,其中,为了后续使用在每个主题中存有保单号这一字段。
纬度表的数据来源有两种:标准化文档和代码。标准化文档如产品险种、险别等都是直接导入相应的纬度表中的,更新频率相应比较低。其他的纬度表中的数据是多个地区数据集中后转移过来的,如地区,机构代码等纬度,相应的更新频率比较频繁。事实表中的纬度是在DSA中的数据基于纬度表进行转换的,转换过程取决于转换的规则,它决定了某个指标在数据转载层的ETL部分进行具体的描述。
经过对业务数据仓库的抽取得到业务信息仓库的信息内容,按照业务的需求组成主题汇总区。由于业务信息仓库的粒度是基于细节信息的,对数据量比较大的主题,需要进行适当的浅度汇总,从而加快的生成效率。在本例的实现过程中,着重在于计算出客户利润贡献度。客户利润分析度是指一定时期内为保险公司创造的价值。计算时用一类客户的所有保单在一定时期内带来的收益除以成本得出。
我们对某年某地区的保费收入进行分析,我们先通过险种维度、地区维度、险种维度进行浅度汇总。再按日期,地区,险种等维度进行的汇总表中,针对每个单独分析对象即分险种保单,以地区维度作为主表,险种维度、保费维度、赔付维度作为连接表,进行了分类维度汇总,汇总出按地区、险种、赔付费的汇总记录。表1是某地区保费收入的汇总表。

表1
对该地区的车辆险保单进行进一步的挖掘分析,选择两种使用较普遍的车型,主要按照投保人年龄纬度,找出贡献最多利润以及亏损最多的客户群。

表2
从表2中可以看出车辆险中不同年龄段的客户贡献度不同,而且投保的车型不同,贡献度也不一样。在桑塔纳类别中,{zh0}的客户集中在50~55区段,且占人数总比只有8%,另外占总投保人数69.7%的客户带来的是亏损。进一步按照行业纬度,对这些投保人所处行业情况分析,发现主要是由于大部分是出租车用户,因此车辆失窃和道路车祸相应比较多,由此造成了赔付率的居高不下。该数据挖掘的结果显示,从总体来看,该车型由于投保者的行业集中度较高,造成了该险种价值实际为负。在一汽奥迪类别中,{zh0}的客户集中在45~50和40~45区间段,而且这部分客户占该类投保人数的53%,对车辆险这个险种来说,该部分客户就是具有代表性的{zg}端客户资源,这样在以后的保险计划和业务推广过程中,就可以有针对性地发展优质客户,调整不同投保车型的业务结构,控制一般客户业务并且压缩亏损品种规模,提高车险整体业务的利润水平。
通过对数据的多维分析,治理人员很轻易地对纷繁复杂的业务数据进行立体多维分析,从中找出隐藏在数据中的潜在的规律和必然的联系,更好地理解熟悉业务实际情况和把握业务的发展趋势。其次,我们再进一步对险种的保单数据进行挖掘,根据承保保单数据找出险种数据的内在联系,并总结出规律,使得内部分析人员可以按照地区、销售渠道、职业、年龄、性别、学历、业务性质等要素对险种保单数据进行深入挖掘,分析出各种要素之间的可能存在联系性,更好地设计和开发出相对应的保险产品,来满足特定用户群所对应的个性化需求,也能够为业务的发展提供了技术指导手段,在产品销售过程中找到最有利的突破口,提升数据挖掘在保险行业的使用范围和使用价值。当然,在运用数据挖掘进行业务指标分析的时候,也会产生一些偏差,需要加以克服,主要是:过分强调当前利润分析,而忽视了客户整个生命周期带给公司利润的整体贡献;忽视了客户可能带来的费业务指标所能测算的价值。总体来说,数据挖掘只是一种手段,在考虑市场成熟度和客户接受能力的前提下,为客户提供差别化的服务。
六、结论
保险市场的激烈竞争导致了面向市场营销和客户服务的数据仓库的建设以及数据挖掘技术的应用,本文在介绍了数据挖掘技术的基础上,重点阐述了保险公司针对车辆险的数据挖掘,以及基于车辆险分析平台展开数据挖掘的过程和数据挖掘的主题分析。我们对各种技术应用的最终目的是实施以客户服务为中心的客户关系治理和以销售为导向的产品推广和营销战略。在目前应用的情况下,继续在数据仓库的基础上,为多个重点地区和主要险种的业务数据实施多主题数据挖掘,揭示出对业务发展具有指导意义的经验和内在规律。

参考文献
范明,孟小峰,等译.数据挖掘概念与技术M.北京:机械工业出版社,2001.
王珊,等.数据仓库技术与联机分析处理M.北京:科学出版社,1998.
3AlexBerson,StephenSmith,KurtThearling.BuildingDataMiningApplicationsforCRMM.北京:人民邮电出版社,2001.



郑重声明:资讯 【数据挖掘在保险业中的运用_chengxiaoboke的空间_百度空间】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——