宜人贷何林海社交图谱在金融反欺诈产品的应用宜人贷征信「有宜人贷还能」公务员除基本工资外还有什么福利「公务员退休当年应该享受当年的福利」南充服务站「时间能停止吗」宜人贷款逾期会怎么样「宜人贷会起诉」泰州双职工公积金贷款最高可以申请「2021年泰州公积金贷款额度」公积金账号异常「江西省cors卡账号」长沙富基世纪公园二手房「长沙碧桂园城市之光公寓怎么样」二手房带抵押过户「济南二手房过户在哪里办理」防城港市公积金查询个人账户「防城港代缴公积金」河南停止提取住房公积金「河南省直住房公积金提取条件」杭州医院编制待遇「杭州护士编制」杭州某体制内护士工资火了真实金额令人羡慕难怪护士竞争激烈佛山南海初中教师工资「佛山南海区教师工资是多少」经济日报:农民参缴公积金意义不容小觑「农村户口单位可以不交住房公积金吗」河南住房公积金贷款新规「河南公积金贷款额度是多少」天津购房可以用外地公积金吗「北京的住房公积金能在天津买房吗」武汉自己交公积金怎么交「武汉自己交公积金」霍山县公积金提取条件「霍邱公积金管理中心什么时候上班」结存单可以下载啦 2021年度的账户变化尽收眼底吴忠住房公积金查询「吴忠住房公积金管理中心电话」公积金租房新政策「5丨公积金查询」安顺市住房公积金管理中心关于停办业务的公告「住房公积金停办」武汉公积金制度「劳动合同没有住房公积金」海宁市新闻媒体求助热线「宁波宁海分类信息」安顺开通公积金异地转接平台了吗「安顺公积金app下载」鄞州公积金个人贷款政策调整最高可贷金额提高多少「宁波公积金贷款额度2021」科普机关事业单位住房公积金需要缴到什么时候结束「机关事业单位的公积金和奖金」男子因生僻姓氏做核酸不出结果想去派出所改名却因没核酸进不去市住房公积金管委会召开会议原则同意出台邵阳市住房公积金个人住房贷款实施细则长沙市住房公积金转移「长沙公积金查不了」鄞州区行政服务中心下午几点上班「鄞州区行政服务中心上班时间2021」公积金取出来好还是不取出来好呢「公积金取好还是不取好」徐州事业单位公积金缴存比例「工会经费计提基数」住房公积金网上办「全城通办」暂时不买房公积金账户里的钱要不要提出来贷款「公积金如果不买房能取出来吗」杭州公积金最低缴存比例是多少「每月公积金怎么算的」柳州市民服务中心正式启用 11家单位即将搬迁入驻中心「柳州服务」取消装修提取调出市外提取宜宾市住房公积金使用政策调整无房租赁提取公积金「公积金无房提取」最新房贷lpr利率「2021年深圳最新房贷利率」西宁公积金物业费提取间隔时间「西宁公积金贷款新政」贺州公积金缴存基数「公积金年度结息」公积金新变化「公积金有变动吗」九江住房公积金「同城换工作公积金」在单位自己交社保和自己交有啥区别「单位交的社保有什么用」昆明银行商转组合贷「昆明房产抵押贷款哪个银行放款快」早安楼市深房中协禁止个人房产代理广州公积金缴存基数上浮临汾公积金异地贷款政策「山西省住房公积金管理中心」 60岁以上房贷接力贷「65岁接力贷可以贷几年」

您的位置：首页 >综讯 >

宜人贷何林海社交图谱在金融反欺诈产品的应用

2022-09-25 10:03:38 来源：AI早餐汇

在今年的「QingCloud Insight 2017」上，麦思博（msup）组织了主题为“AI落地实践”的专场论坛。宜人贷数据产品经理何林海在本场带来了题为《构建基于社交图谱关系的反欺诈产品应用》的演讲。

何林海在演讲中主要分享了欺诈行业面临的挑战和产业链式发展、如何快速评估欺诈风险/平台搭建（框架体系）及实现、基于社交知识图谱的欺诈团伙发现、宜人贷面向行业的反欺诈解决方案“先知”等内容。

本文为早餐君根据速记整理而成，在不改变讲者原意的情况下做了编辑和缩略。特别致谢青云QingCloud、麦思博（msup）、宜信技术团队对本文的贡献。

何林海，目前主要负责宜人贷反欺诈产品的搭建，在做反欺诈之前，主要负责SDK行为数据的采集，收集了大量宝贵的用户行为数据，目前在公司内各个项目中得到了广泛使用。在宜人贷之前，就职于美团数据工程部。

以下为何林海的演讲内容。

我是来自于宜人贷的何林海，今天主要分享社交图谱关系在金融反欺诈产品方面的应用。

关于宜人贷

宜信公司2012年推出的一款在线金融服务平台。宜人贷通过科技驱动金融创新，为中国优质城市白领人群提供高效、便捷、个性化的信用结款咨询服务。

2015年12月18日，宜人贷在美国纽约证券交易所上市，成为中国金融科技第一股。截止2017年3月31日，宜人贷累计服务了超过60万借款用户，近120万出借用户，累计促成借款总额达393亿人民币。

欺诈的行业挑战和链式发展

在美国，欺诈主要是由于信用风险而产生，但在国内，很多坏账是由欺诈产生，中国对于欺诈的惩罚不够，导致了类似事件频繁出现。作为一个行业的挑战，欺诈不仅只存在于在线P2P领域。

关于欺诈的行业挑战，举三个例子。

非银信贷：行业整体风险偏高，由于门槛较低，滋生了大量团伙欺诈、身份冒用、老赖、多平台借款、黑中介等，带来巨大经济损失，坏账率居高不下。

银行：开展网络支付、直销理财、电商、消费信贷、P2P等创新业务中，和非银信贷面临同样的问题。

电商：电商领域的在线支付、恶意点击、广告监测、黄牛、账户安全等方面面临交易欺诈风险。

这些问题是全行业的挑战，宜人贷面临的主要是信贷申请时候的欺诈。

现在大量欺诈已经不再只是个人作为，而是一种行业性质的行为。我简单分成三类：上游、中游、下游。

上游，主要是黑产技术服务，能力不逊于技术团队，力量强悍，积累了丰富的工具使用经验，包括虚拟模拟资料，做帐单造假等，成员都是计算机高手。

中游，把恶意注册的帐号释放出去，或者是通过交流平台招揽技术人才。另外，由于需要很多资料，到农村收一些大爷大妈的身份证。对他们来说，赚一百块钱，身份证借用两天没什么关系，实际上这些资料被用来骗贷了。

下游，有专人用这些资料来做欺诈、盗窃、勒索，甚至用来刷单。

如何快速评估欺诈风险及平台搭建

宜人贷如何建立一套快速评估欺诈风险的机制呢？

2014年开始有这些想法，在现有风控体系外，把欺诈风险和信用风险分开做。欺诈风险单独拎出来，并将对用户的欺诈风险识别出来。我们建立了一套从数据采集到机器学习，并快速给出欺诈评分的体系。

在数据采集时，通过SDK的方式，也就是采集SDK，可以在不同触点采集到用户的基本信息，只要用户触达任何一个终端，我们都实时地将这些用户信息送到SENT EVENTS上。

深度学习以前没怎么用，监督类学习是基于欺诈和非欺诈的用户去做分类，无监督用了知识图谱的技术。对于单个用户，每个事件会给出一个评分。

比如，用户打开APP会得分，因为怀疑安装了模拟器，用户进行申请时会给他提醒完善信息。对于优秀用户，根据他的设备或者关联出的其他信息，在注册时给他打一个好的分数。

这是对于不同事件进行实时欺诈评分的流程。用户在设备激活的时候得一个分，注册的时候得一个分，查看新手引导的时候又得到一个分，这个分会实时变化。每次过来，用户都会带上基本信息：设备、IP地址等等，可用作评估风险程度的特征。

上面说到的是反欺诈的基本架构，我们在内部做成一个产品化平台，今天主要介绍一下它的体系，主要基于三个层次。

首先是实时的数据采集，数据采集分几个部分，第一部分是基于SDK采集相关的用户行为数据，第二部分是用户授权的相应个人信息，包括消费数据和通话数据，第三部分是三方数据。

其次，我们用到了实时数据处理，基于知识图谱构建了三个层次，第一个是欺诈评分模型，实时对用户的每个事件进行评分，第二个是传统的规则引擎，我们用了一个非常强的规则；第三个是团伙挖掘，这是一个很大的亮点。

前两点很多公司都在做。针对单个分类的问题，数据决定了模型好坏的上限，模型调的再好，只是决定效果无限逼近上限。团伙挖掘是基于知识图谱，把用户通过图的方式，挖掘他们之间的关系，把这些（有类似欺诈行为或关系的）用户拎出来。

在实时欺诈发现阶段我们采用产品化的工具，在流程里通过调查工具，直接给到信审。把每个用户提报出来，通过这套流程可视化平台，帮助快速理解用户是否欺诈，我们会做中介发现，把中介找到。第三是团伙监控和预警，把欺诈团伙挖出来。

每个阶段的具体实现过程

下面讲讲每个部分的具体实现过程。

第一个模块是基于SDK的实时数据采集，获取一手数据。我在去年加入了宜人贷，当时就在想，这么多的用户行为数据为什么不用来做反欺诈呢？用户的淘宝数据、消费数据，以及其他的很多临时性数据都可以作假，但是用户的行为数据一般不会去模仿，我们做了一个SDK采集框架，分成三层。

第一部分是数据采集，覆盖宜人贷所有客户触达终端的采集能力，采集用户行为、设备指纹等相关信息，比如型号、是否模拟器、各项物理层，以及网络源信息，这部分非常重要，它连接着一些上网轨迹，还有Location，我们发现很多团伙都在一个地点，好几十个坏用户聚在一个基站下面。以上是采集层。

中间是实时数据处理，我们做了一层相应的配置，对于哪些数据是可用的，我们花了很多力气做数据清洗，刚开始的时候在这方面踩了不少坑，然后后续实时的时候会做一些数据回填，才达到一个比较好的运算。数据处理层分为离线和实时。实时数据直接灌到知识图谱里，离线数据做一些特征处理和建模分析。

在数据应用层，最简单的就是流量统计分析，分析用户的行为。其中两个方面跟反欺诈有关，一个是反欺诈前置，另一个是流量反作弊，对每个渠道过来的激活都需要做是否作弊的评分。在反欺诈前置方面，我们会对每个用户进行实时的欺诈评分。

这是SDK采集的基础框架。数据采集方面数据由固定表头信息事件信息组成，每条记录都是一个事件，包含如获取定位行为、或者设备信息行为、用户点击行为、页面加载行为。数据发送有些策略：实时发送、满N条发送、默认15条、失败重发等等。

采集的内容分为几个模块。设备数据主要有手机品牌、手机型号、操作系统、设备ID、App列表。

行为数据主要包括账号登录、页面进入、按钮点击、信息输入、广告浏览、操作时间等。我们有很多流程，比如，新手机运营商授权的密码，很多人都记不住，但是欺诈分子一下子就输入了，他的输入速度非常可疑，我们通过聚类把这种用户聚在一起。

位置数据现在主要用四个：GPS、IP、基站信息、WIFI列表。比较精准的是GPS和WIFI，基站大概有100~200米误差。很多欺诈分子喜欢用代理IP。

基于以上，把用户实时行为数据采集完之后，对每个用户会形成一个实时的欺诈评分。

这是一个实时预警流程。我们真正用的模型不只是只有行为，但是它的权重非常高，我们还用到很多的其他数据，需要用户授权的一些数据，我们都会放到欺诈的特征里面。

我们做了一个FICO评分标准，评分越高用户信用风险就会越小。此外还有一个规则引擎，我们会发现一些强有力的单条规则，或者多条单一规则组成的策略，对每个预警用户非常有效。

预警出来会分成两部分，一部分信用好的就直接拒了，另一部分交给反欺诈调研，形成黑名单。所有流程都是实时的，保证跟业务系统完全解耦，有快的反馈速度，十分钟放款，就要判断出他是否是欺诈。

模型训练，我们有一个好的点给大家分享下，大家可能做过，正负样本非常不平衡，欺诈领域也有这个问题，我们面临的是想要找出一些坏用户，但很不易。

坏用户常见的定义就是MOB6里面的M3 （逾期三个月），不能把有信用风险的用户刨除掉，这个用户不一定是欺诈，他是违约了，但有可能就是没钱还，要把欺诈跟信用解耦出，可以信用风险的方式做信用定价。我们构建了基于欺诈标注的自动化学习，可疑对实时新增的欺诈标注，快速反馈回模型训练。

基于知识图谱的欺诈团伙发现

以上是对于识别单个欺诈用户的应用。接下来谈谈如何基于知识图谱判断欺诈团伙，大家知道团伙其实很难发现，发现了也很难认定。

我们采用了两种方式，第一种是通过无监督的方式，通过聚类的方式找到这些用户；另外就是通过知识图谱的方式发现关联关系。我们的知识图谱关系网用的是Neo4j。

我们主要应用知识图谱做了三件事情：疑似中介识别、关联骗贷团伙识别、团伙监控&预警。关联骗贷团伙，一个用户来了之后，对单个用户的特征评价里有了非常多的数据，他跟某一个团的关联关系，他在团里的关联特征，比如一度联系人，和二度的设备联系有多少，这些是作为单个用户而言。此外还有对所有用户的全局搜索，从而发现骗贷团伙。

关于团的定义可以参考以下图。