原标题:PINTEC任然:大数据风控模型研发的三大关键点
10月26日,PINTEC集团读秒智能信贷科学决策负责人任然参加香港金融科技周活动,并发表了名为“Building Credible Credit Risk ModelsUsing AI And Intelligent Algorithms”的主题演讲,介绍了大数据风控模型研发的三大关键点。以下是演讲中干货内容的翻译。
大家好,我是PINTEC集团旗下读秒的科学决策部负责人任然。读秒是一个智能信贷解决方案,核心是一种纯线上的贷款实时审批决策系统。以机构客户的数量来计算,PINTEC已经是国内最大的智能信贷服务商。
通过这几年的探索,我们逐渐总结出一些大数据风控系统研发过程中的关键节点,希望能对行业有所启示。
从大数据到快数据
要实现实时决策,一个关键点是要确保系统可以处理很多数据。现在总说“大数据”(big data),但我们认为有时候“快数据”(fast data)更重要。在互联网时代,整个系统要高速的响应需求,面对瞬间涌入的需求保持robust,这就不仅仅是有“大量”数据的问题,而是怎么样把这些数据源实时地联系在一起,确保数据进来时系统可以实时处理,这个事情是更复杂的。
因为数据科学仅仅是数据决策的一个算法环节,但是算法的实现要有很多基础设施作支撑,就像人一样——人的正常活动不仅靠的是大脑,也需要骨骼、血液作支撑。我们能在极短的时间内做出授信决策,很大程度上依赖于我们有一个强悍的系统作支撑。
我们的技术部门会对授信环节作优化设计。根据我们的设计,整个授信环节可以分成很多步骤,如果能在早期的授信环节,通过较少的数据对用户的风险作出判断,那这就不会经过后面的操作,决策作出的就比较快。比如说,用户如果在黑名单之列的话,我就可以比较快地把他拒绝掉,这种情况下整个体验会非常快。
基于同样的数据,我们可以用不同的方法建不同的子模型,然后让模型和模型间互相PK。如果某一个模型效果好,我可以动态地去调整更多的流量给它,这也是套方法论,叫在线学习(online learning)。
Online learning在广告业其实是非常普遍的东西,比如说广告业会做AB测试,去统计点击量,看那一条广告效果更好,就加大它的出现频次,这其实是让模型自己去学习的方法。
但在风控领域中,据我所知online learning目前运用得很少。大家会觉得风控模型这个东西比较“神圣”,不会去允许它做太多的动态调整。所以交叉学科的经验借鉴,有时对建模也有帮助。
兼用传统逻辑回归与机器学习算法
我们做模型时,会兼顾使用传统的逻辑回归方面的算法,和一些比较先进的机器学习的算法,比如说bagging,boosting,包括最近因为AlphaGo Zero火起来的增强学习(reinforcement learning) 。
传统的风控模型都是线性模型,比如逻辑回归,它的特点是高度结构化和可解释性。但问题是,如果一个变量与target 之间不是线性的关系,我们在把它变成线性关系的过程中会损失很多信息。而且这种情况下,当我们去做特征工程(featureengineering)的时候,是需要人去想的。 但人总有局限性,你看到想到的东西并不是全部,有时它甚至是错的。
机器学习、深度学习的模型,它的好处是能自我适应、自我学习,但这类模型基本上是一个黑盒子。因为模型的结构非常复杂,比如说一个决策树模型里可能有一千棵树,每一棵树可能会有三四层——结构上非常复杂以至于人没有办法去描述它。这可能也是为什么一些传统银行里的从业人员,用AI模型的时候会比较没有安全感,因为他看不到这个模型里是怎么样的,总觉得要自己掌控的才能放心。
具体到个人的信用评分,比如说我们给一个人信用打了700分。至于他为什么被打了700分,在逻辑回归里很简单可以看到变量的情况,但是在机器学习的boosting或者bagging里是没有办法去了解的,它所有的feature,所有的数据选择,都是机器去完成的。我们最终只要看模型的效果,也就是模型输出的违约率,我不用管它是怎么实现的。
读秒系统上线两年的时间,我们的模型有过四个大的改版。被开发用来预测使用一系列信贷产品后的偿还行为的信用评分叫“基本评分”(generic score)。反应测试效果的ROC 曲线越往左上方突出,表示模型效果越好。我们发现,读秒早期的3.1版模型的ROC 曲线基本上是贴着“基本评分”的。而现在第4个版本的模型比3.1版本准确率要高将近50%。
在我们新版本的三个模型(M1, M2, M3)中,模型表现最好的M3中,我们就是既用了传统的逻辑回归,也结合用了人工智能的方法。所以我们不会把传统的风控办法都丢掉,我们只是要去拥抱新的技术。
做客户系统中的一颗金融科技芯片
PINTEC的商业模式,是要为机构客户提供金融科技的解决方案。我们的服务一端连接的是一些商业机构,像携程、中国电信、小米这样的互联网或其他行业巨头,我们可以帮助这些公司为用户提供多一种金融服务的选择。而且读秒信贷决策系统不仅仅应用在线上消费环境中,目前也渗透到线下场景之中。
PINTEC服务的另一端连接金融机构,我们会为金融机构带来线上线下的客户,帮他们做基于大数据和人工智能的风控管理,还会延展到前端的获客,中端的客户留存,和后续的催收等一系列过程。我们可以帮助金融机构为更广泛的用户群体服务,这是一些传统机构所不具备的。
PINTEC提供的是类似芯片一样的“嵌入式”服务,将我们自己的能力封装成一个金融科技的芯片,嵌入到合作伙伴的业务流程之中,帮助他们实现智能金融,这也是我们提出的POWERED BY PINTEC服务战略的内涵。