P2P网络借贷信用风险估计的特征工程外文翻译资料

 2022-11-18 20:17:29

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


P2P网络借贷信用风险估计的特征工程

1、简介

信用风险是指借款人未能按要求付款(巴塞尔银行监管委员会,2000年)的债务违约风险。信用风险评估的目的是评估借款人违约的可能性。这是有关经济活动的关键步骤。然而,借贷双方之间的信息不对称,给信用风险评估带来极大的困难。也就是说,贷款人对借款人的能力和还款意愿的信息要比借款人少。P2P网络借贷作为一种新型的经济借贷模式,它的的兴起,为信用风险评估的研究带来了新的机遇和挑战。除了传统模型中使用的个人金融和人口统计信息之外,还有各种各样的新信息来源,可以用来评估贷款的信用风险(Lin et al., 2013;王et al .,2016)。然而,过多的信息会导致信息过载。本文的目的是研究如何从不同的数据源中提取和选择最有用的特性。

信用风险评估的关键是评估借款人的偿债能力和还款意愿。偿债能力是指借款人按时偿还贷款的能力,它取决于借款人的资产、债务、未来的收入和支出。还款意愿是一个主观因素,取决于借款人的想法和想法。本文从不同的数据源挖掘信息,从不同方面评估借款人的还款能力和意愿,以减少P2P网络借贷中的信息不对称。

大部分相关的工作都集中在评估各种信息对在线P2P贷款的融资成功的影响,包括个人财务信息(Puro et al., 2010),社会信息(Lin et al., 2013;Brandes et al .,2011;他一一amp;王,2009;《文本信息》(迈克尔斯,2011;Larrimore et al .,2011;Herzenstein et al., 2011)等等。目前的工作目标是:(1)从不同的数据源获取信息,提高信用风险评估模型的性能,即贷款违约预测的准确性,(2)确定影响信用风险的关键因素。

本文的其余部分组织如下:在第2节中,介绍了一些相关的工作;在第3节中,给出了我们要解决的问题的定义;在第4节中,介绍了研究问题的假设,并描述了如何从非结构化数据源提取信用风险特征;在第5节中,描述了如何避免因过多的特性而导致的维度的诅咒;实证评价和比较见第6节;第七部分总结全文。

2、相关工作

个人财务数据是传统信用风险评估模型的主要信息源。Puro等人(2010)研究了贷款金额、利率和融资成功之间的关系。他们的实验结果表明,低利率降低了获得贷款的机会,而较低的贷款数额增加了资金的机会。Emekter等人(2015)研究了各种金融因素与违约率之间的关系。研究结果表明,信用等级、债务收入比、FICO评分和循环利用对贷款违约具有重要作用。信用等级较低且持续时间较长的贷款,与高违约率相关。

最近,研究人员开始挖掘P2P借贷的在线社交信息。Brandes et al.(2011)研究了社会信息对贷款利率的影响,发现比起信用信息,贷款人更相信社会信息状况良好的借款人。Greiner和Wang(2009)研究了社会资本在P2P网络借贷市场中的作用,发现社会资本较多的借款人更容易获得资金并获得较低的利率。Herrero-Lopez(2009)研究了P2P网络借贷中社交互动的影响。他们的研究结果表明,培养社会特征,比如加入一个受信任的群体,可以增加获得贷款的机会。Lin等人(2013)研究了P2P市场上的网络友谊与交易结果之间的关系,发现借款人的网络友谊是信用质量的信号。有朋友的借款人更有可能获得贷款申请,而这些贷款的利率更低。

一些研究人员研究了P2P借贷中语言使用与资金成功之间的关系(Michaels, 2012)。Larrimore等人(2011)指出,使用扩展的叙述、具体的描述和定量的词语与资金的成功有着积极的联系。Herzenstein等人(2011)研究了借款人在叙述中所构建的身份认同如何影响贷款人的决定。他们发现,更多的身份认同增加了借贷成功的可能性。

3、问题定义

信用风险评估的目标是预测贷款是否会违约,或者使用所有可用数据来预测违约概率。它可以被建模为函数f:

y = f(x)

其中y为目标变量,表示默认值或默认值。X是来自不同来源的数据。一些数据,比如结构化的个人财务数据,可以直接输入到模型中。其他的,比如文本描述,需要处理以提取有用的信息。

在本文中,我们从以下数据源收集信息:(1)来自贷款申请表格和第三方金融机构的个人财务和人口数据,(2)政府统计报告的宏观经济数据,(3)在线社交网络数据和(4)P2P平台借方的文本描述。

第一种数据,即个人金融和人口数据,包括贷款的金额、时间(几个月)的贷款,借款人愿意支付的最大利率,DTI(债务收入比率)的借款人,由第三方提供的信用评分,借款人的国家生活,等等。这些数据是传统信用风险评估模型的主要信息源。我们称之为基本信息。第二种数据,即宏观经济数据,包括在贷款申请期间,国家和全国的收入指标、消费指数、制造业指数、就业指数、商业指数和市场指数。这两种数据是结构化的。因此,它们可以直接输入到我们的模型中。然而,社交网络数据和文本描述数据是无结构的。我们需要设计一些方法来从这两种数据中挖掘信息。

4、特征提取

4.1社交功能

传统的小额信贷机构依靠社会网络来增加借款人的违约成本,并进一步克服借贷行为的逆向选择。一些P2P借贷平台,比如Propser.com,试图在网络环境中复制这一信息。

当个人信息受到限制时,社交网络数据是信用风险评估的一种重要信息来源。我们假设有相似观念的人会进入同一组。因此,我们可以利用借方参与评估借款人信用的集团信息。此外,我们假定一个人的相关信息可以通过其交友群体得知。因此,我们可以利用他的朋友的信息来评估借款人的信用。

在Prosper.com中有三种社会关系,包括朋友关系、群体关系和背书关系。对于每一种关系,我们都进行层次分析,如图1所示。我们将各种社会网络划分为多个子类别,包括它们的角色、清单历史、列表状态和贷款状态。我们统计每个类别和子类别的人数,并收集一些相关的信息,例如他们的平均信用评分。表1列出了社会特性的细节。

4.2文本特征

还款意愿是一种难以用财务数据或人口统计数据来衡量的心理过程。文本描述是一种反映作者心理过程的人类行为。我们分析了借款人的特征。

图1所示:社会网络数据的层次分析。

表1 :从社交网络功能

从他们的文字描述中,进一步利用这些特征来评估借款人的还款意愿。

每个贷款申请,即在普洛斯彼网站上的一个清单,包括关于贷款目的的文字说明和申请人的其他信息。此外,在每个借款人的资料中有一个自我描述和几个背书说明。笔者使用斯坦福大学(Manning et al., 2014)提供的一种自然语言处理工具(NLP)工具包来测量每个文本描述的正式性、试探性和具体性。此外,还进行了一些基本的统计分析,包括每个描述中句子的数量、句子中单词的平均数量、每个描述中数字单词的数量、每个描述中拒绝词的数量等等。文本特性的详细信息列在表2中。

5、特征选择

可以使用来自不同数据源的特性来增加关于目标变量的信息。然而,过多的特征会导致维度的诅咒(Liu et al., 2015;刘et al . 2016年)。为了避免这个问题,尝试通过特性选择来减少特性的数量。

使用两种不同的方法来选择特性、筛选方法和包装方法。Relief (Kira amp; Rendell, 1992)是一种高效的筛选特征选择方法,它与学习方法无关。它根据候选特征进行排序。

表2:从文本功能描述

它根据候选特征对预测目标变量的重要性来排序。但是,它需要手动地确定要保留的特性的数量。为了解决这个问题,可以选择使用一个包装器方法来搜索每个学习方法的最佳特性子集,它可以自动确定要保留的特性的适当数量。将训练数据中特定学习方法的AUC(区域在ROC曲线下)作为评价指标,以比较不同的特征子集并选出最好的一种(Kohavi amp; John, 1997)。

6、实验

首先,评估了从宏观经济数据、社会网络数据和文本描述数据中提取的所有新特征直接加入信用风险评估模型的效果。然后对特征选择的影响进行评价,并试图找到最优的特征子集。

6.1实验设置

6.1.1数据集

将2008年1月1日至12月31日期间所有成功融资的贷款申请作为使用的实验数据。繁荣时期最长的贷款期限是五年。因此,所使用的所有贷款都达到了研究的期限。收集关于贷款是否在其生命周期结束时得到完全偿还的客观信息,并将其作为类标签使用。根据贷款的起始时间,将数据分成三个子部分;使用前两个子部分作为训练数据,其余的作为测试数据使用。

6.1.2模型

使用四种著名的学习方法作为信用风险评估模型,包括朴素贝叶斯模型(NB)、C4.5、Logistic回归(LR)和多层感知(MLP)。朴素贝叶斯模型是一种基于贝叶斯定理的简单概率模型,具有强(天真)独立假设的定理(Duda等,2001)。C4.5是一种利用信息熵概念诱导决策树的最先进的方法(Quinlan, 1993)。Logistic回归是一个使用Logistic函数的直接概率模型(Cox, 1958)。多层感知器模型是一种前馈式人工神经网络,它由一个有向图的多层节点组成,每一层都与下一层完全相连(Cybenko, 1989)。在实验中,我们使用WEKA (Hall et al., 2009)提供的模型及其默认参数设置。三分之二的样本用作训练数据,其余的用作测试数据。本文使用AUC(在接受者操作特征曲线下的面积)和分类精度来评估每个模型的性能。

Logistic回归是信用风险评估的一种标准方法(Thomas et al., 2002),在基本特征集上使用逻辑回归作为基线方法。

6.2实验结果

表3、表4、图2和图3显示了具有不同特征子集的四种学习方法的AUC和准确性。括号中的数字表示特征数。当仅使用16个基本特征时,LR和MLP在AUC和精度上都表现得很好。NB和C4.5的表现相对较差。当使用从不同数据源提取的158个特征时,LR的性能会变得更好,而其他三种学习方法的性能会变得更差。

结果显示,除了LR外,其他三个学习方法都受到维度的诅咒(图2和图3)的影响,在开始时,他们的性能首先增加了一些特征。然后,当选择的特性集的大小足够大时,它们的性能会下降。NB获得最高的AUC 0.728,有22个特征被选择。C4.5获得最高的AUC 0.709,其前8个特征被释放。MLP获得最高AUC 0.771。

表3:不同模型的AUC在不同的特征集合上。

表4:Acc。不同特征集的不同模型(%)

图2:不同学习方法的AUC有不同的选择特征数。

图3:不同学习方法的准确性,选择的特征数不同。

排名前15的特征被救济选择。总的来说,LR和MLP在这项任务上的表现要优于NB和C4.5。

结果表明,与基本特征集和整个特性集相比,所有四种学习方法的AUC都有显著的改进,在AUC和精度上均有较好的测量,且特征较少。其AUC达到0.774,精度达到72.1%,只有十个特征。他们是:MaxInterestRate, LoanAmount, CreditGrade, CreditScoreRangeUpper, IsHomeowner, MonthLoanPayment, IsLender, NumOfNumerals, NPPTTL, UMCSENT。前六个特性包含在常规方法中常用的基本特性集中。MaxInterestRate表示贷款人愿意为贷款支付的最高利率。艾耶et al。

已有研究表明,MaxInterestRate是一个可信和昂贵的信号(Iyer等,2015)。贷款金额表示出借人想要贷款的金额;信用等级是平台给每个贷款人的信用等级;Credit Score Range Upper指的是贷款人FICO评分的范围;IsHomeowner表示贷款人是否有自己的房产,或者只是一个租户;月供表示贷款人每月需要偿还多少贷款。

最后四个特性是从新的数据源中提取的。is贷款者是一个社会特征,它表明借款人是否也是P2P平台的贷款人,这是一种社会资本和信用信号(Greiner amp; Wang, 2009)。NumOfNumerals表示借款人所写的文字描述中数字单词的数量。Larrimore等人(2011)已经表明,定量词语的使用与人的财务状况有关。NPPTTL和UMCSENT是两个宏观经济指标。NPPTTL指的是每月更新的美国非农个人工资总额,该指标可作为预测公众未来收入的信号。UMCSENT表示密歇根大学:消费者信心,也在每月更新。该指数表示公众对未来经济是否乐观或悲观,这是预测国民经济走势的一个信号。图4显示了这四个特性的默认预测能力。

图4:从新数据源中选择的特性的默认预测能力。

根据图中默认人和正常人的概率分布曲线的差异,我们可以看出,IsLender、NPPTTL和UMCSENT都是预测默认值的好方法。

7、结论

在本文中,笔者从不同的数据源挖掘信息,以提高P2P网络借贷的信用风险评估模型的性能。然而,当添加更多的特性时,四个测试模型中的三个似乎受到维度的负面的影响,但是通过删除无关和冗余的特性可以解决这个问题。在最终的模型中,使用了来自不同数据源的10个特性的MLP,并与其他使用更多特性的模型相比获得了更好的性能。

在未来,笔者将(1)从文本描述中提取更多特征来评估还款意愿,(2)分别考察不同信息源的影响,(3)通过集成学习提高信用风险评价的表现。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[24078],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版