消费者信用评分模型在中国商业银行消费贷款发行风险计量中的应用与评估
原文作者Ruonan Lin
单位 Applied Mathematics and Statistics Stony Brook University
摘要:近二十年来,随着中国经济的快速增长,各种消费信贷业务在中国迅速发展。 然而,由于我国商业银行目前采用的风险管理方法水平较低,技术手段相对落后,而且我国还没有成熟的基于信用评分模型的信用风险控制体系,这严重阻碍了消费信贷业务的进一步发展。 为了解决这一问题,商业银行在个人授信中应采用消费者信用评分这一建模方法来预测客户违约概率。 在过去的5年中,中国致力于建立世界上最大的个人信用数据库,并建立自己的个人信用评分系统。 然而相较于中国,美国这些发达国家在这方面仍然较为落后,需要改进。 国内多位学者尝试将传统的人工智能消费者信用评分技术应用于中国的数据,其中logistic模型具有最高的预测准确度。 近年来,三种新型的、最为先进的信用评分方法——SVM、RF和PLSR在美国的工业中得到了应用,并被证明具有很高的预测精度和稳定性。 本文详尽介绍了这三种最新的建模技术,并将其应用于某商业银行的数据集。 对具有中国特色的变量和大量缺失值的数据集进行了认真分析和处理。为了进行比较,我们还利用相同的数据集建立了三种典型传统的模型: logistic模型、分类树和多层感知器神经网络模型。 这六个模型分别进行了评估和测验,基于不同标准的比较:分类错误率、KS检验统计量和AUC值进行了六个模型之间的比较。比较结果表明,无论采用何种标准,RF模型均优于其他五种模型。 因此,RF模型是推荐商业银行今后采用的一种评估方法。
关键词:消费信贷;RF模型;信用评分;
第一章 引言
1.1 背景
消费信贷业务是商业银行个人业务的一种,是指商业银行在约定的时间内向个人或家庭提供贷款,并按一定的利息收回本金的业务现象。 消费信贷作为社会再生产过程中的一个影响因素,是模拟国内需求、平衡生产和消费的重要货币政策.1999年3月,中国央行颁布了《消费信贷指导意见》 ,从此,中国的消费信贷市场得到了迅速发展。 2007年,在全国人民代表大会和中国政治协商会议上,时任总理温家宝强调,未来几年内,中国仍应坚持扩大内需,特别是扩大消费需求。尤其是关注扩大消费者需求。 消费信贷在拉动消费需求中的作用不容忽视。 近年来,随着我国金融业的快速发展,全国各级银行机构相继建立。 中央银行、国有商业银行、股份制商业银行和地方商业银行构成了庞大的中国银行体系,成为了中国金融业务的坚实基础。 随着社会医疗保险和养老保险制度的逐步完善,传统消费方式正逐渐被新型消费观念所取代。越来越多的中国居民开始接受消费信贷服务。 消费信贷业务主要以稳定的法定个人收入和良好的个人社会信用为基础,包括个人住房贷款、汽车贷款、教育贷款、信用卡等。 一些金融机构还推出个人小额信贷贷款、个人一般信用额度贷款等。随着市场上消费贷款种类的增多,消费信贷风险的管理越来越重要,需求也越来越高。在拉动内需的政策推动下,目前我国消费信贷业务在过去的十年中经历了持续快速的增长。据《中国货币政策报告》显示,截至2009年底,消费信贷总额为5.5万亿元人民币。统计数据显示,从2005年到2010年,中国的消费信贷以年均29%的速度增长。预计在未来五年内,中国经济将继续以平均每年约25%的速度增长。按照这一趋势,到2015年,消费信贷总额将达到21万亿元人民币。与此同时,中国发行的信用卡数量也在以惊人的速度增长。自1985年信用卡概念首次引入中国以来,截至2009年底,信用卡发行总量已达10万张,到2011年底,这一数字直线上升到10万张。截至2012年上半年末,全国共发行信用卡10.5万张,信用卡消费信贷总额2.99万亿元。据 RNCOS 的行业报告,增长率一直保持在高水平,预计在未来五年将保持在每年31% 的水平。 由于消费信贷业务的不断扩大,银行等金融机构要根据过去的经验和专家的意见准确估计消费信贷风险变得越来越困难。因此,对消费者信用风险进行量化和评估,以避免消费者违约可能带来的损失,具有十分重要的意义。目前,评估消费者信用风险最常用的科学方法是消费者信用评分。
1.1.1信用评分的作用及定义
信用评分是根据对个人信用的统计分析得出的数字表达式。表示该人的信用可靠性(该人按时还款的几率)。信用评分主要是利用征信机构的信用报告信息和债权人自己收集的信息来确定的。 这些资料包括客户的信贷纪录、银行户口的数目及类别、户口的年期、催收行动等。债权人(例如银行及信用卡公司)会利用信用评分来评估客户的潜在违约风险,以及减轻坏帐造成的损失。一个人的信用评分越高,他 / 她就越有可能按时偿还债务,因此他 / 她就更有可能在需要的时候得到贷款帮助。 信用评分系统是债权人用来确定是否授予信贷的系统,它使用了许多与数据挖掘非常相似的技术。 债权人将客户的资料与其他有类似资料的客户的还款记录作比较后,利用信贷评分来判断该客户是否有资格申请贷款,以及贷款的利率和信贷上限应为多少。 信用评分还用于衡量哪些客户有可能带来更大的收入[1]。而早在信用评分出现之前,专家判断是决定谁能获得信用的唯一影响因素。债权人以他们过去的经验作为判断新消费者的依据。这不仅是一个缓慢的过程,也是不可靠的因为可能有误判。债权人最终开始使用信用评分来标准化和量化他们的信用度,这有助于消除以前存在的较多偏见。信用授权取得了巨大的飞跃,当统计模型考虑到许多变量和可变的组合,通过来自数十万实际消费者的支付信息来建立。统计模型允许在预测消费者信贷行为方面有很高的得分。信用评分模型使授信过程更快、更快捷,方便信贷业务的开展,并帮助消费者很快获得他们需要的额度。[2].由于债务人在评估与信贷产品相关的风险时的不确定状态,消费者信用评分大致可分为四种类型:评估新申请人信贷能力的申请评分、动态分析现有客户风险的行为评分、根据拖欠程度将破产客户划分为不同类别的信用局评分,以及评估客户欺诈可能性。
1.1.2中国消费者信用评分
与美国相比,中国在建立自己的信用评分系统方面晚了40年。 20世纪90年代末,随着我国信贷经济的发展,国内商业银行试图设计和开发自己的消费信贷评分系统,以控制信贷风险。 这些商业银行吸收了发达国家的信用评分理念,并将理论与我国实际相结合。 他们选取的指标一般包括个人身分、职业及专业、家庭收入及银行户口资料,以建立一个「专家系统」。 对每个指标进行量化,并给予独特的评分或权重,以便银行能够对个人的还款能力和信贷状况进行全面评估。 近十年来,随着我国征信业的发展,地方政府扶持的国内信用机构也相继推出了自己的个人信用评分系统。两个成功的例子是位于上海的信用信息服务有限公司(CIS)鹏源(位于深圳)。
CIS于2002年11月25日开设了自己的个人信用评级系统。 根据不同的预测目标,将个人信用评分分为信用风险评分、信用价值评分、反应评分、损失评分、集合评分、欺诈评分和破产预测评分。 2006年3月,CIS 利用当时最新的信用信息数据和建模技术,创建了一种新型的信用评分——个人信用管理评分。 这个CIS个人信用管理评分,范围从0到2000,用来预测客户在两年内拖欠60天以上款项的可能性,它与现在使用的应用程序评分非常相似。 2005年,鹏远推出了他们的第一个个人信用评分“鹏远800”(范围从320到800)。其中,银行信用卡信息、银行个人贷款、社保支付、信用报告查询、公众支付信息是影响银行信用卡信息、银行个人贷款信息的重要因素。鹏远还开通了在线个人信用评分查询系统,每个中国人都可以在该系统中填写一个简单的在线表格,免费获取自己的信用评分。从2005年至今,“鹏远800”已成为深圳本地银行消费信贷风险的主要参考指标。虽然CIS和鹏远在提供个人信用评分方面做得不错,但是他们的数据主要来自当地居民,缺乏必要的准确性、权威性和概括性。相比之下,整个美国的FICO风险评分通常在300-850之间。2006年,中国的中央银行(人民银行或中国人民银行)开始构建中国第一个全国性消费者信用评分系统。 在数据收集方面,中国人民银行信用咨询中心(CRC)建立了一个非常庞大的数据库(世界上最大的个人信用数据库),自2003年以来,该数据库包括从中国所有商业银行收集的超过8亿个人账户。 从2006年6月至2009年9月,中国科学院虚拟经济与数据科学研究中心(CASFEDS)与CRC共同开发了中国的全国个人信用评分系统,即“中国得分”。 用于创建分数的建模技术主要是逻辑回归和多准则编程。用于构建模型的数据涉及459个派生变量和902325个观测值。现在,中国得分(介于350到1000之间)仍处于测试阶段,但是该系统有望最终在其日常财务活动中为所有13亿中国人提供服务,例如银行账户管理,信用卡申请,抵押,个人贷款等[3]。自2002年以来,中国学者还对信用评分模型进行了大量研究。已经使用各种建模技术进行了实证研究。这些技术包括但不限于线性回归,逻辑回归[4],判别分析[5],k最近邻法,线性规划,决策树,人工神经网络[6],聚类分析[7],贝叶斯分类器[8],遗传算法和主成分分析[9]。集成模型方法也已在一些文献中介绍。一个例子是逻辑回归和神经网络的集成模型。由史庆言博士开发的集成模型比逻辑回归模型更准确,比神经网络模型更稳定[10]。另一个例子是一个基于遗传算法和魏翠[11]建立的神经网络相结合的模型。
1.2目的和结构
开展这项研究主要有四个动机。 首先,建立信用评分模型,以解决阻碍中国信用经济发展的技术难题。 其次,找到一种相对好的方法来处理来自中国商业银行的不完整和嘈杂的数据。 除了三种传统和著名的信用评分技术外,第三,将三种新的尖端信用评分技术应用于从中国一家商业银行获得的真实数据集。 最后,对我构建的六个模型进行比较,并找到将来在中国使用的最佳且强烈推荐的技术。
本文共分六章。 第1章给出了信用评分的定义,简要介绍了中国消费者信用评分的发展,并总结了中国以前的研究。 第2章介绍了六个模型的基础理论,并介绍了评估信用评分模型的预测能力的标准。 第3章介绍了本研究中使用的原始数据集以及清理数据,估算数据,创建训练和测试数据集以进行建模的方式。 在第四章中,使用第二章中介绍的六种方法进行了实证分析。模型评估部分显示了每种模型的重要输出和结论。 之后,在第5章中,将所有六个模型放在一起并进行了比较。 模型比较的结果也包括在内。最后,第六章对本文进行了总结,并对相关主题进行了讨论。 这项研究的三项主要贡献是:引入了三种最新的消费者信用评分技术,并将其应用于从中国一家商业银行收集的数据中; 比较三种传统模式与这三种新模式,并提出最佳模式的建议; 总结了过去十年中中国消费者信用评分的技术发展以及中国个人信用评分系统的建设。
第六章 结论与讨论
6.1结论
本文介绍了六种信用评分技术,并将其应用于从中国一家商业银行获得的数据集。在这六种技术中,其中三种是最先进的方法。它们引起了广泛的关注,并且最近变得越来越受欢迎。具有中国特色变量且缺失值比例较大的数据集已经过仔细分析和处理。前面的章节分别对这六个模型分别进行了评估和解释。六个模型都基于三个标准显示了高度可预测的有效性:分类错误率,Kolmogorov-Smirnov(KS)测试统计量和曲线下面积(AUC)值。六个模型的比较表明,在所有三个标准中,随机森林模型均优于其他五个模型。继随机森林之后的径向基函数支持向量机模型是第二好的模型。六个模型中的四个可帮助我们从其训练过程中选择最重要的变量。我们使用选定的八个重要变量重建了随机森林模型和逻辑回归模型。在将这两个重建模型与原始模型进行比较之后,我们得出结论,随机森林模型具有强大的鲁棒性和准确性,并且减少了变量数量。随机森林的这一优势将帮助我们在处理具有数百个输入变量的大型数据集时节省大量计算时间。从这个意义上讲,强烈建议使用“随机森林”模型来增强“中国得分”,这是第一个全国性的消费者信用评分系统。尽管“随机森林”相对于其他模型具有竞争优势,但它也有一些缺点,例如结果可视化的难度以及识别不良客户的能力不足。然而,其他五个模型都被证明具有强大的分类能力和可取的能力,可以区分好客户和坏客户。 Logistic回归模型具有很高的鲁棒性,体现了出色的预测能力。当响应变量不是二进制而是多个类别时,它也是一种可以应用的方法。 Logistic回归的唯一缺点是需要大型数据集才能获得有意义的结果。在标准回归或线性判别分析中,每个预测变量预期可以得出有意义的信息的20个观测值(20个观测值被视为下界数)。对于逻辑回归,每个预测变量至少需要50个观察值才能获得稳定的结果。但是,实际上,由于在消费者信用评分中始终使用大型数据集,因此观察次数可能不是问题。就预测能力而言,分类树模型的性能不如其他模型。然而,通过树状图输出,它是本文所讨论的所有六个模型中最直观,最容易解释的模型。如果数据集具有数百甚至数千个输入变量,则分类树还可以帮助选择将在训练其他模型中使用的最重要的变量。但是,如果输入变量的数量很大,则分类树的宽度和深度可能会增加,并且模型将变得更加难以解释。作为在消费者信用评分中使用的第一种机器学习技术,神经网络模型以其“学习”变量之间关系的出色能力吸引了很多关注。它们不依赖于统计模型必需的常规假设,并且可以处理多元响应数据。神经网络模型还可以处理大量输入变量。但是,神经网络技术有时缺乏稳定性,因此应与其他模型一起使用。支持向量机(SVM)是一种新兴的机器学习方法,已广泛应用于各个研究领域。在消费者信用评分中,这种方法可以对良性和不良客户做出正确的预测[41]。然而,该理论仅涵盖针对给定的正则化值,内核参数以及给定的各种内核选择的参数确定。 SVM将过度拟合和参数优化问题转化为模型选择问题。不幸的是,内核模型对于过度拟合模型选择标准可能非常敏感[42]。当预测变量矩阵的变量多于观测值且X值之间
剩余内容已隐藏,支付完成后下载完整资料
The application and assessment of consumer credit scoring models in measuring consumer loan issuing risk of commercial banks in China
Ruonan Lin
Doctor of Philosophy in Applied Mathematics and Statistics Stony Brook University
Abstract
With the impressive growth of economy, various consumer credit businesses have been expanding in China rapidly during the past two decades. However, due to the low level of risk management methods and relatively laggard techniques being currently used by Chinarsquo;s commercial banks, and because there was no mature credit risk control system based on credit scoring models in China, the further development of consumer credit business is seriously hindered. In order to solve this problem, consumer credit scoring, which is a predictive modeling method widely used to predict the probability of customer default, should be used when the commercial banks making decisions in granting credit to individuals. During the last 5 years, China has devoted to building the worldrsquo;s largest personal credit database and established its own personal credit scoring system. But this system still falls behind those system in developed countries such as the U.S.A and needs to be improved. Several scholars in China have tried applying tradition al consumer credit scoring techniques to the data in China, among which they found logistic regression was the most robust and neural network had the highest prediction accuracy. In recent years, three new and more advanced credit scoring methods: Support Vector Machine (SVM), Random Forest (RF) and Partial Least Squares Regression (PLSR) came into use in the industry in the U.S.A and have been proved to have higher prediction accuracy and stability.
In this dissertation, all the three latest modeling techniques have been introduced and applied to a dataset obtained from one commercial bank in China. This dataset with Chinese characteristic variables and large proportion of missing values has been carefully analyzed and handled. For the purpose of comparison, three typical and traditional models: logistic regression, classification tree and multi-layer-perceptron neural network models have also been built with the same dataset. Each of the six models has been assessed and tested respectively. A comparison based on various criteria: classification error rate, Kolmogorov Smirnov (KS) test statistic and Area Under Curve (AUC) value has been made between six models. The result of comparison has shown that the Random Forest model outperformed other five models no matter which criterion was applied. Thus Random Forest is a method recommended to be implemented by Chinarsquo;s commercial banks in the future.
Key words: consumer credit ; Random Forest ; Credit Scoring
Chapter 1
Introduction
1.1 Background
Consumer credit business, one type of personal business in commercial banks, refers to the business phenomenon that commercial banks lend money to individuals or families and take back the principal with certain amount of interest at an agreed time. As a factor that acts in the process of social reproduction, consumer credit is an important monetary policy that simulates Chinarsquo;s domestic demand, balancing production and consumption. In March 1999, the central bank of China (Peoplersquo;s Bank of China) issued the guidance on consumer credit, and since then the consumer credit market in China has been developing rapidly. In 2007, at the National Peoplersquo;s Congress and the Chinese Political Consultative Conference (NPC amp; CPPCC), then-prime minister Wen, Jiabao stressed that within a few years in future, China should still be persistent in expanding domestic demand, especially focusing on expanding consumer demand. The role of consumer credit in driving consumer demand cannot be neglected. In recent years, with the rapid development of Chinarsquo;s financial industry, banking institutions at all levels have been established throughout the country. The central bank, the state-owned commercial banks, the joint-stock commercial banks and local commercial banks constitute Chinarsquo;s enormous banking system and become the solid foundation for Chinarsquo;s financial business. As the social medicine care and endowment insurance system are gradually improved, the traditional way of consumption after primitive accumulation is being slowly replaced by the concept of consumer credit. Increasing number of residents in China begin to accept consumer credit services. The consumer credit business is primarily based on the steady legal personal income and good personal social credit, including individual housing loans, auto loans, durable consumer goods loans, education loans, credit cards and so on. Some financial institutions also launch personal micro-credit loans, personal general credit limit loans etc. As more types of consumer loans come into being on the market, consumer credit risk management is becoming increasingly important and is in higher demand. Due to the policy of propelling domestic demand, at present, Chinarsquo;s consumer credit businesses have been experiencing consistent fast-speed grow in the past decade. According to China Monetary Policy Report, by the end of 2009, consumer credit amounted to 5.5 trillion RMB yuan. Statistics show that from 2005 to 2010, Chinarsquo;s consumer credit increased at an average annual rate of 29%. It is expected to continue growing in the next five years at an average annual rate of about 25%. Following this trend, by the year of 2015, the total amount of consumer credit will be 21 trillion RMB yuan. In the meanwhile, the number of credit cards issued in China has been growing at an astonishing rate too. Since the concept of credit card was first introduced into China in 1985, the total number of credit cards issued had reached 190 million by the end of year 2009, and this number went s
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[275082],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
