无监督机器学习如何保护金融-思谋资讯中心

无监督机器学习如何保护金融

网友投稿 326 2024-03-08

“无科技，不金融”。随着移动互联网时代的到来，科技金融模式不断创新，但是欺诈手法也在不断翻新，呈现出专业化、产业化、隐蔽化等特点。日前，世界科技开发者盛会DeveloperWeek 2019评选VR、人工智能、金融科技等领域优胜者。

无监督机器学习如何保护金融

无监督机器学习技术是什么，为何会被认为十分具有投资价值？它能在科技金融活动中起到什么作用？能解决哪些金融交易中的问题？

科技金融反欺诈创新利器

与传统金融不同，互联网金融业务大多发生在线上，往往几秒钟就完成审核、申请、放款等，面临的欺诈风险也是空前的。据统计，我国网络犯罪导致的损失占GDP0.63%，一年损失金额高达4000多亿人民币。国际上的情况也不乐观，多份市场研究报告指出，仅2016年一年，全球信用卡、借记卡、预付卡和私有品牌支付卡损失就高达163.1亿美元;每年保险欺诈（不包括健康险）损失总额预计超过400亿美元。

“随着技术不断演进，针对金融业的威胁、欺诈手段已不同以往。团伙作案、分工明确、掌握各种先进技术工具、不断变化威胁手段，全新挑战使得金融企业越来越难以招架。”DataVisor中国区总经理吴中说，金融反欺诈期待创新已成业内共识。

“无监督机器学习是近年才发展起来的反欺诈手法。目前国内反欺诈金融服务主要是应用黑白名单、有监督学习和无监督机器学习的方法来实现。”爱信诺征信有限公司总经理金端峰在接受科技日报记者专访时说。

黑白名单被认为是最原始的反欺诈方式，类似于“筛选器”。如银行征信系统就可理解成一个黑白名单，信用卡多次逾期还款就可能被列入信贷“黑名单”;在淘宝上购买了退货险后屡屡退货，就可能上骗保“黑名单”。黑白名单是所有反欺诈方法中比较简单的，但也是更新较慢、成本较高的。

能将异常用户一网打尽

有监督学习需要大量有标签数据来训练模型，以此来预测还未被标注的数据。以垃圾邮件为例，假如把5000封已由人工确认过的垃圾邮件输入到模型，模型通过对标题的识别、邮件内容句子的分割、关键词的识别等各种分析方法，找到其中的内在关系。如标题中有“福利”二字的，有90%的可能性是垃圾邮件;一次性发送超过200封的，有60%的可能性是垃圾邮件;回复率低于10%的，有70%的可能性是垃圾邮件……于是，当模型处理一封新邮件时，通过检测以上各子项，并对每一子项乘以百分比后相加，就能得出垃圾邮件的可能性。但有监督学习的弊端是，每个模型都需要大量训练数据以及较长的训练时间。

“可能你的模型还没有训练好，欺诈分子已经完成欺诈活动并寻找下个目标了。”吴中说。

无监督机器学习主要方式有聚类和图形分析。金端峰说，无监督无需任何训练数据和标签，通过聚类等机器学习算法模型发现用户的共性行为，以及用户和用户的关系来检测欺诈。“通过无监督机器学习分析用户的共性行为，可以发现伪装过的异常用户，将其一网打尽。”

何为聚类方式？例如一群用户注册事件，可通过聚类发现几个小群符合某些共性：注册时间集中，都使用了某种操作系统，某一个浏览器版本等。该用户群中的任何一个单独拿出来分析，看上去都极为正常，如果符合某种超乎寻常的一致性就十分可疑了。比如一群人在凌晨2—3点采用同一款浏览器注册了同一产品，其IP的前20位相同，GPS定位小于1公里，注册后都修改了昵称和性别等。

现在的金融欺诈都是团伙作战，面对“化整为零，批量复制”的欺诈手法，金端峰说，无监督算法应用于反欺诈检测还有一个优势，那就是能提前预警。“现在的欺诈分子都有潜伏期，以免太容易被发现。由于他们在潜伏期的行为依然符合某种规律，具有某些一致性，同样还是会被无监督算法捕捉到。在威胁发生前就检测出欺诈分子，这一点传统方法是难以做到的，防患于未然这也是无监督机器学习之所以在反欺诈检测中大放光彩的重要原因之一。”

责任编辑：ct