我们经常听到银行同事说,如果连续3个信用报告,他们就不会付款。 这大概就是黑名单的定义。 属于一个风控规则,如果被命中,就会被决策引擎拒绝。 那么三连和六连这个定义是怎样的呢? 随着互联网金融和大数据的兴起,黑名单的数据来源和规则定义变得更加多样化和广泛,导致风控黑名单规则因素更多。 如何才能更深入地了解黑名单呢?
(尤其现在市场合规的持牌银行机构、持牌消费金融公司、保险公司、头部P2P公司、小额贷款公司以及大量不知名的游击贷款公司都面临着借款人,加上借款人的资信情况、资金需求,政策导向、就业环境等导致借款人还款不稳定较大:同一个人只还信用报告,不还P2P或小额贷款。P2P还款较好的个人听说过P2P监管退出的消息并开始结成带有集体恶意的团体,逃避债务,显然这里的人是相对黑名单的,也是相对非黑名单的)
1. 内部黑名单
企业通过客户周期数据表现建立自己的黑名单数据库。 一般来说,不同的产品带来不同的风险客户群体,数据表现也不同。 因此,如果在不同的产品中使用相同的黑名单策略规则是不合理的。 我是一个坚持经验主义的数据分析师,崇尚数据分析结果的量化,因为所有的最终结果都是在效益的最终量化中呈现的。
定义:一般类似于风控建模中目标GB的确认,可以通过滚动率和迁移来定义黑名单。 例如,对于银行来说,通常是90天,即三个连续的30天周期。 银行遵循中国银监会发布的贷款分类原则。 比如我之前搞的短期现金贷款PDL,期限较短,PD10,还款困难。 黑名单规则定义逾期天数大于10天,还款比例低于1%。 早期的PDL一般在PD7几乎没有还款率。 这就是为什么很多转贷规则都有政策规则(最后一笔订单的逾期天数)。 这个规则的阈值不是设置为5,也不是设置为13,而是设置为7,从迁移报告中一眼就可以看出,这就是量化的魅力。
维护:目标一旦确定,是否会保持不变? 不是这种情况。 虽然银行体系处于大周期,但最近看到很多微文章说银行也开始用M2,说明整体资产在恶化。 一切都在永恒地变化着。 随着经济结构的发展变化,人们信用意识形态的迁移、市场金融产品布局的渗透、政策监管对资金流向的影响等都对产品的风险表现产生很大影响,因此定义该黑名单也必须保留。 如果我的客户继续下沉,就像上面提到的,需要7天变5天(比如需要数据分析),因为根据数据,我失去了逾期6、7天的客户,不能给我带来任何的客户。利润。 如果他再借钱我们就不需要再还钱了。 如果我们的风控部门还在悠闲地沿用之前的一套定义,那么我们就只能等待公司的钱流向其他人了,或者更严重的是,风控部门就会离开。 ,团队更换,我想说这根本不严重。 我以前工作过的两家公司都发生过这种事。 一是整体风控团队离开,二是负责人离开。
2.外部黑名单
第三方黑名单收集来源;
行业共享:典型的AF与同行业的p2p合作进行共享,会返回给您具体的逾期天数等级、产品、风险等级等字段;
爬虫采集:比如公安执法信息,很多企业都会爬取相关网站来抓取数据并生成规则;
直连公共数据库:例如企业直连公安数据库进行产品推广,过去3个月到20年的时间片数据,类别包括逃犯、涉毒、吸毒、犯罪记录等;
支付数据:近年来,新兴支付公司纷纷针对外部主要数据提供风控解决方案。 他们自己的黑名单是通过支付数据的挖掘来定义的(如何挖掘:简单来说就是客户通过第三方支付方式扣钱)。 余额不足次数等统计)
设备数据:通过设备数据(短信、定位、设备指纹等)定义好客户和坏客户。 其中短信挖掘厂家的产品比较成熟,因为所有黑名单客户都被短信采集了,从短信的内容就可以大致看出。 这个客户处于前期、中期、或者什么阶段处理。
其他:跟采集公司合作,数据交换(合规不合规,反正),这个一定要有很大的区分性,直接是被采集的客户。 这是我两年前接触到的。 不知道现在还可以用吗。 不。
我想到的就是这些。 我缺乏想法。 欢迎大家补充!
其实内部黑名单没什么好说的,但是外部黑名单就很有趣了。 在北京工作的这三年里,我接触到了太多的第三方数据。 几乎每个公司都有黑名单的输出,包括短信、支付、人员等。 法警、装备、银行等,门类和类型很多,非常丰富。
面对这种黑名单,我的经验建议不要直接急于遵守规则,而是随遇而安。 过去几年,很多企业并没有太重视数据质量。 我工作过的三个公司都用过它。 当时,专业分析师很少。 懂数学的人不懂商业,懂商业的人不懂数学。 大多数分析师仍在使用它,并且很难产生令人满意的分析。 主要原因是:第一,你不了解这个数据采集的来源,底层数据,第二,你不知道真实性,第三,你不知道你的产品是否有区别。 当然,数据方面会讲。 成为一名战略分析师是我目前最喜欢的事情。 我们回头看看,或者最好在线上运行。 就是那种不做决定就白跑一趟。 数据首先调用。 ,然后有性能的时候我们再分析。 无论多么天马行空,我们都必须等待结果出来。 我们的合同开始生效。
效用评估
:您不需要自己定义三方黑名单,因为三方已经定义好了。 其中大部分是田地。 剩下的就是我们要做评估,无论是回测还是线上测试。 需要后续跟进。 我们分析一下这个因素。 那么这个因素影响了多少首次超额付款、坏账和还款(其实这三个指标是相辅相成的)我们就认为作为黑名单规则合适。 例如,坏账; 100%不一定要用,60%、50%。 其实我对此也有很多疑问。 太高了就不能完美,太低了就不能谨慎。 其实还是从盈亏或者风控KPI的角度来看。 定义一下,我觉得还可以。 假设我的风控KPI的PD20是15%。 那么此时PD20这个因子的表现就是30%。 我觉得定义一个黑名单是没有问题的,大于15%也没有问题。 我记得之前接触过r3的自定义规则,就是坏账的2倍作为拒绝阈值。 它没有被定义为黑名单,但有一定程度的区分。 它也可以用作模型中的变量。 就像模型中一样,我们通过的客户中评分最低的那部分人的坏账肯定远高于整体坏账,但是我们并没有拒绝这部分人群。 他考虑了通过率、成本、转化、收入等诸多因素。
总结一下我遇到的一些有趣的事情
1:不要以为只要拉黑名单,就会把人拉黑:我记得第一份工作我们用br的时候,他们的名单叫特殊名单,里面有具体的原因。 当时我们做的是医美客户,额度比较大。 由于当时的技术原因,这一规则并未生效。 然后我好奇地等待着这些符合特殊名单规则的客户,他们表现得很好。 这是我第一次对黑名单产生怀疑。 从此以后,我传的黑名单数据一定是上线前的。 或者在成为策略之前测试一个周期。 这件事说明你的黑名单把我的白名单列入了黑名单,哈哈哈哈。
一些提供开发者推送服务的第三方在产品介绍中介绍了黑名单的数据来源:根据历史数据,过去一年有90多天的记录,黑名单用户数千万,黑名单用户数千万。哈哈,一个头子公司有多少用户? 通过相互金融行为分析和关系挖掘,这些介绍是值得商榷的。 它不是贷款公司,它有上千万的黑名单,而且对黑名单数据来源的笼统描述存在严重问题,所以必须进行评估和核实。
2:关于命中率问题:排除集中攻击,任何信用产品的黑名单命中率都有一定的范围,肯定低于规则和模型。 因为要求稳定、狠,一般黑名单规则的命中率为0-10%。 10%左右的一般是客群最差的产品,稳定的在3-5个之间。 所以当你使用黑名单数据源规则时,如果命中率是15%,或者更高,作为一个经验丰富的专家。 这个命中率值得怀疑,或者说数据有问题。 否则,这根本就不是合法的黑名单规则。 这种情况我遇到过很多次,一般效果都不是很好。 不仅效果不佳,还流失了大量用户。 经常有经营市场的同学问我。 如果你简单的说这是我们连接的第三方,那么测试返回就没有问题了。 他们上了黑名单,然后拒绝了人。 我认为你不合格作为一个风控官。 你一定知道这样是有问题的。
3:关于成本问题:在风控流程中的定位
我们看到太多的教学课件、太多的ppt,黑名单规则放在哪里? 它们都在前端流程中,绝对是在反欺诈和模型前端。 但我想说。 如果一个黑名单是1元(几乎所有搜索都是收费的),一个模型是0.5,为什么不把黑名单放在最后呢? 模型会拒绝大部分人,黑名单会拒绝少数人。 我们换个思路:通过的成本是0.5,因为两个数据都跑完了,没有打黑名单。 模型通过了,但是对于那些拒绝的人来说,如果只选其中一项数据,你会选择哪一个呢? 我用了0.5的成本,这样我就可以拒绝一个人,而不需要使用1元的黑名单。 如果我用黑名单拒绝,我的拒绝成本会增加三倍。 我们过去常常将通过率、收费方式、风控流程结合起来,然后设计出最低的成本。 经过计算,我们确实可以节省很多钱。
综上所述,黑名单需要从数据来源、评估方法、成本优化、动态管理等角度进行详细细致的了解和分析,以达到最佳的使用决策。 以上只是我这几年工作经历的总结。 根据我个人的实战经验,希望能为读者贡献一些资源,谢谢。