在互联网金融行业,不少人都对“大数据风控”有一种迷思:认为只要数据够“大”,就能有最牛的风控体系和行业最低的坏账率。
这未免理解地过于简单了。DT君最近专访了金融服务集团PINTEC旗下智能信贷公司读秒的科学决策总监任然。任然告诉DT君,其实做大数据风控是一个挺细致的事儿,大数据风控,重要的不是数据本身,而是对数据的理解(类似的话,DT君之前也听哈佛大学的GaryKing教授说过。King教授说,Bigdataisnotaboutthedata——大数据的价值不在于数据本身,而在于它背后的数据分析)。
在专访中,任然回答了大数据风控行业数据的来源、风控模型如何建构、什么样的数据才会被视为“有用”、中美两国在大数据征信体系方面的不同等问题。在他看来,中国的大数据征信体系的完善还有很长的路要走。
做大数据风控的公司,手头的数据源都差不多
(注:以下内容根据对任然的采访整理而成,文中小标题为DT君所加。)
我们做的业务,学名叫作“零售信贷”。简单来说,我们会对应该给一个人贷多少钱、贷多长时间作一个评判,这个判断100%是基于数据分析作出的。
我们数据的来源分内部数据和外部数据。内部数据包括:用户在我们平台上以前的借贷记录,用户申请时的行为数据,我们内部的黑名单、灰名单等。
外部数据的来源包括:现在比较常见的八家个人征信机构(DT君注:2015年1月,央行开始允许芝麻信用等8家机构开展个人征信业务)。我们还会对接一些用户银行卡的字段数据,在用户授权的前提下,我们会把这个卡的信息和银联的相关数据去比对。
我们现在接入的外部数据有四五十家,但这不意味着这四五十家的数据都会被用到风控建模中去。如果它们提供的变量不完全是我们最想要的,我们会做一些联合建模。现在市面上比较常规的做大数据风控的,数据源都相差不大。
我们认为,数据本身价值很有限,只有理解数据后,把这些数据进行解释,最后运用进去(实际应用),才是有价值的。
理解风控数据:常打电话订花?给你一张“好人卡”
我觉得,做大数据风控的核心点在于:我们对数据的理解有多深。我们这群(做大数据风控的)人对数据要极其敏感,因此我们会花很多时间在变量上。
举一个我们和电商合作做变量的例子。我们可以通过这些合作看到用户订票的信息、机票的信息,比如公务舱、经济舱这些信息——这本身其实也能说明一个人的基本经济情况。
但是我们会做得更细,会继续做一些叠加或衍生。比如我们也可以不看公务舱和经济舱的区分,而看飞行每公里的消费单价。因为公务舱和经济舱的价格也会波动很大,有的时候经济舱也有特价票、公务舱也会有优惠活动,所以我们会看每公里的消费金额。
又比如同样是基于近六个月的流水话单,我可以做出很多不一样的变量。比如说用户是否跟某某类的店打过电话?打电话的频次怎么样?趋势怎么样?
我们发现,如果用户经常跟贷款中介打电话,或者银行催收中心打电话,那用户应该相对比较缺钱,或者是曾经有过违约的历史。
相反,如果用户经常给花店打电话买花,说明他可能是个“好人”;如果经常给婴儿店打电话,说明他可能有孩子,有孩子的话一般比较稳定、也靠谱一些。
我们花非常多的时间去衍生这些变量,因为它更直接地反映了这个人的消费行为。当然,也有些时候,我们花了很多时间却做了无用功,甚至90%我们做出来的变量都没有用,但试错筛选出哪怕只有不到10%的可用变量,最终风控效果才是最重要的。
做风控模型:又“蓝领”又艺术的的活儿
说到做模型,我觉得这是个比较“蓝领”的事儿,风险(控制)、建模这类工作还是需要非常细致的。
但是做模型有时也比较“艺术”,因为这是一个比较见仁见智的事情。
建模的第一步是你有很多底层的数据,然后在这些底层的数据上先衍生一些变量,这个变量可能是基于对一个数据的一些个人的理解。
但是大部分的变量放到模型里去,你可能会发现……比如,用户是否打过110实际上在风险上没有任何区分度,那这个变量我就不要了。但是有时在建模过程中,我们发现一些有意思的东西,会再回去衍生变量。比如说,我们在看银联的消费数据和变量的时候,我会去看他在餐饮业消费的排名或区间。比如说,“用户是否在夜间消费过多”是一个比较好的变量。那接下来,我会考虑,是不是把餐饮消费再分成夜间和白天,或者类似的,我可以回过头再进一步看——就是这一个例子。
所谓夜间,指的是凌晨三四点钟。夜间消费过多,要不就是你的工作性质就是这样的,要不就是工作比较不稳定一些。这个也说得通。
社交数据用于风控:在美国不一定,在中国还挺有用
现在大家说的比较多的社交数据,用在比较大众化的人群上,用处比较小;但是在一些特殊的客群上,社交数据可能很有用。
比如说美国有个叫作ZestFinance的公司,Zest研究的人群很多在FICO(DT君注:美国一款广泛使用的个人信用评分系统)里是没有分的。这里补充一个背景知识:我们常听到的FICO并不是征信局,而是一个做模型、做信用评分的公司。FICO底层用的是美国三大信用局的数据(DT君注:美国三大征信局分别是Experian、Equifax和TransUnion)。
有些人群,比如拉丁族裔、新移民群体,他们在FICO里没有记录或记录很短,又或者他们的FICO分基本上是没有风险细分图的,我们把这种情况叫做叫作Thinfile(DT君注:指缺少信用方面的资料)。这个群体比较小,但是细分领域如果能做得很好,其实也不错。
我们团队里边也有之前在Zest工作过的人,他们会更多地去关注其他的数据源(alternative source)的用法。
中国和美国的情况有一点不同。美国三大信用局的信用数据已经覆盖到了美国金融市场的大部分客户。而中国央行虽然也有信用记录,但是真正有比较完整的可用的记录也就是3亿多人。
中国的环境里,社交数据还是非常有用的。我们在和芝麻信用方面交流的时候,他们也会说,如果你的朋友圈里面芝麻分都是比较高的,他也会认为你是“好人”。
中国大数据应用的症结:绕不开的“数据孤岛”
目前,中国的大数据应用其实是处在比较初级的阶段,包括征信体系。央行的征信体系首先覆盖人群不够多,其次很多机构也接不进去。
中国市场上,各行业其实不断地在释放新的数据,但却还是一个各自为政的状态,比如说我是一个基于资源型的(企业),可以拿到一些运营商类的数据,还有一些可能会拿到银联的数据,但是大家没有把数据整合起来。
我不觉得中国的征信体系近期内会到达像美国那样的状态。美国在出现三大征信局的格局之前,就有上千家机构,最后大家才都整合了起来。中国的情况很难讲,目前还不知道最后会是怎么样。