(干货)建立风控模型的方法,值得收藏!

2024-01-26
来源:网络整理

接上一篇支付风控数据仓库建设的文章。 支付风控涉及多个方面,包括反洗钱、反欺诈、客户风险等级分级管理等,核心功能是实时交易的风险评估,或者说欺诈检测。 如果这笔交易的风险太高,将会被拦截。 由于反欺诈检测是在交易过程中实时进行的,因此对用户体验也有要求,不能被误拦截,即不能占用太多时间。 一般来说,风险控制操作必须控制在一定限度内。 对于交易量较大的交易,对于业务来说,10ms甚至更低的性能要求是必要的。 这就需要合理设计风险控制模型。 一般来说,要提高风控的拦截效率,需要考虑更多的维度,但这也会带来计算性能的下降。 效率和性能之间需要取得平衡。

本文重点介绍建立风险控制模型的方法。 每个企业应根据自己的实际业务情况和发展能力选择合适的模式。 这里列出的模型仅用于说明问题并提供参考。

1、风险等级

在做风控拦截时,首先要回答的问题是如何划分风险等级? 目前主流的风险等级划分方式有三级、四级、五级三种。

大多数支付系统使用三个风险级别。

2. 基于规则的风险控制

规则是最常用、也比较容易使用的风控模型。 从实际情况中总结一些经验,结合榜单数据,制定风控规则,简单有效。 常见规则包括:

1. 列出规则

使用白名单或黑名单来设置规则。 具体列表如前所述,包括用户ID、IP地址、设备ID、地区、公安检查执法等,例如:

该用户ID在风控黑名单中。

用户的身份证号码被列入反洗钱黑名单。

用户的身份证号码在检察官和执法机构的名单上。

用户使用的手机号码在羊毛号码列表中。

转账用户所在区域为联合国反洗钱风险预警区域。

2、操作规则

根据用户账户、IP、设备等限制支付、提现、充值的频率,一旦超过阈值,风控级别将提高。

频率需要综合考虑(五)分钟、(一)小时、(一)天、(一)周等维度的数据。 由于一般的计算频率是基于自然时间段的,如果用户的操作跨越时间段,频率限制就会失效。 当然,更复杂的可以用滑动窗来做。

针对不同的风险级别设置不同的阈值。 例如:

用户提现频率不得超过5分钟2次、一小时5次、一天10次。

用户每天的提现限额不能超过10,000。

用户支付频率不得超过5分钟2次、一小时10次、一天100次。

3、业务规则

一些与特定业务相关的规则,例如:

同一人绑定10张以上银行卡。

同一张银行卡绑定5人以上。

同一手机号码绑定5人。

一周内更换手机号码超过4次。

同一张私人银行卡每分钟接受转账次数超过5次。

4. 行为异常

用户行为与之前的表现不一致,例如:

用户支付地点与平时登录地点不一致

用户用于支付的个人IP与常用IP地址不一致

短时间内,用户上次的支付地址和当前的支付地址相差很远。 比如我2分钟前在中国支付,2分钟后到美国支付。

5、风控拦截历史规则

用户在某项业务上的消费行为被风控网关多次拦截。

规则引擎优点:

高性能:按照规则匹配订单并输出结果。 一般不涉及复杂的计算。

易于理解和分析:交易被拦截时违反了哪条规则? 很容易输出。

支付控制_支付风控_支付风控是什么意思

开发比较简单。

规则引擎的问题:

一刀切,很容易被那些想偷羊毛的人嗅到。 例如,如果规则规定超过5000元的订单将被截取,那么元浩会将订单拆分为4999元。 每天有10笔交易的限制,所以我们会在收集到9笔交易后停止。

规则冲突问题。 当交易触及IP白名单和配额黑名单时该怎么办?

规则引擎看似简单,但也是最实用的一类模型。 它是其他风险控制模型的基础。 在实践中,首先使用已知规则来发现有问题的交易,在手动识别交易的风险级别后,将这些交易作为其他监督学习的训练数据集。

3.决策树模型

风险评估本质上是一个数据分类问题。 与传统金融行业风险评估不同的是数据规模大、业务变化快、实时性要求高。 一旦发现漏洞,将会给公司造成巨大损失。 机器学习是解决这些问题的有力工具。 互联网金融风控离不开机器学习,尤其是支付风控。 在各种支付风控模型中,决策树模型是比较简单易用的模型。 对于下面的决策树模型,我们分析数据特征并根据现有数据构建决策树。 当交易发生时,我们使用决策树来判断该交易是否是高风险交易。

该模型的优点是非常容易理解,检测速度快。 因此,它也是现有机构中常用的模式之一。 风险控制模型的主要问题是它们产生的结果是粗糙的。 相同的两笔交易被判定为高风险。 哪种交易风险更大? 决策树模型无法给出答案。

4. 评分模型

比决策树模型更进一步,许多公司现在都在使用评分(卡)模型。 银行在处理信用风险评级和反洗钱风险级别时经常使用这种方法。

每个公司的模式都不同。 参考模型如下:

本模型参考《金融机构洗钱和恐怖融资风险评估及客户分类管理指引》编制,仅供参考。 虽然银行之间的评分模型具有很好的参考价值,但对于互联网企业来说,由于业务和数据的差异,评分模型的参考价值不大。

每个企业需要根据自己的业务情况制定评分模型,然后为每个指标分配一个权重比例。 加权评分结果在0到100分的范围内,然后根据范围进行划分来指定风险级别。 例如:

当然,评分范围也需要根据企业的实际情况制定。 评分模型的优点是:

性能比较高,针对交易计算指标,按照区间判断风险。

与规则相比,如果指标设置得当,覆盖率会很高,漏洞也不容易被发现。

也更容易理解和分析。 如果一笔交易被拦截,可以根据其各种分数来评估被拦截的原因。

问题:

模型确实很难建立。 指标的选择是一个挑战。

各种参数的调整是一个长期的过程。

我们知道,从一条交易记录中可以挖掘出数百种相关数据,甚至更多的衍生数据。 例如,可以从支付地址中对常见地址进行聚类,并可以得出当前地址、常见地址和最后支付地址之间的距离。 构建模型时可以使用这些指标。 那么第一个问题是,如何根据这些指标构建合适的模型? 这就涉及到机器学习的问题。 模型不能凭空建立。 我们可以通过规则对现有数据进行过滤和标记,以确定这些记录集的风险级别。 这些数据用作训练模型的样本。 可用的算法包括 FP 等。 算法实现请参考相关文档。

确定相关参数后,模型在使用过程中需要不断调整相关参数。 这是一个拟合或者回归算法,算法,CART算法,可以用来调参数。

总之,模型建立是一个不断学习和优化的过程。 每个模型的发布还需要试运行、AB测试和上线。 这个流程将在下一篇风控架构中介绍。

5. 模型评估

风控本质上是对交易记录的分类,因此风控模型的评估除了性能之外,还需要评估“召回率”和“准确率”。 如下所示:

以评估高危人群的效果为例,

理想情况下,我们希望这两个指标都很高。 事实上,它们常常是相互排斥的。 准确率高意味着召回率低,召回率低意味着准确率高。 如果两者都低,则模型不可靠。 对于风险控制,需要在保证准确性的情况下尽可能提高召回率。 那么如何找到高风险的实际人数呢? 这就需要先使用规则模型进行过滤,然后手动选择。

从实际应用来看,目前国内团队大多采用回归+评分模型进行风险控制,少数采用决策树。 国外的是支付平台风控的标杆。 国内前海征信和蚂蚁金服会采用更先进的神经网络和机器学习,但实际效果还没有实证证据。

支付风控场景分析;

支付风控数据仓库建设;

支付风控模型及流程分析(本文);

支付风控系统架构

感谢您对本文的关注。 如果您想及时收到凤牌老熊的最新作品,或者有相关问题需要讨论,请扫描二维码关注“凤牌老熊”微信公众号,并留言或在公众号回复。 您可以尽快处理,谢谢。

本文欢迎转载。 转载时请注明本文来自微信公众号“凤牌老熊”。

分享