新型数据分析体系系统有哪些?

5月31日,由京东金融研究院和中国人民大学金融科技与互联网安全研究中心、中国刑事警察学院共同撰写的《数字金融反欺诈白皮书》在北京发布!

目前,金融欺诈风险不断扩大,反欺诈形势严峻。传统反欺诈手段维度单一、效率低下、范围受限,难以应对新型的欺诈手段。在此背景下,京东金融研究院发布白皮书,有针对性地梳理了欺诈新方式,反欺诈手段,以及在8个金融场景中识别、打击欺诈行为的落地实践。

京东金融研究院院长 孟昭莉

当前,金融科技的发展及其对传统金融行业的渗透已成为不可逆转的潮流。我们欣喜地看到,金融科技的应用大幅降低了金融领域的信息不对称性,切实推动了普惠金融的发展,为健全多层次金融市场做出极大贡献。然而,事物的发展往往是一体两面的,对于新生事物更是如此。金融科技方兴未艾,但基于此的新型欺诈手段也不断滋生,金融欺诈风险不断升级。

在现阶段守住不发生系统性金融风险底线的宏观背景下,金融监管、防范风险的重要性被提到前所未有的高度。由于数字与金融的“联姻”,金融的欺诈行为呈现出专业化、产业化、隐蔽化、跨区域等新特征,对传统的反欺诈手段形成极大挑战。因此,针对金融领域的反欺诈技术也应不断革新,既要精准打击存在的风险,也要执棋先行,做到防患于未然。

在《数字金融反欺诈白皮书》中,我们有针对性地梳理了欺诈新方式,反欺诈手段,以及在8个金融场景中识别、打击欺诈行为的落地实践。这8个场景应用涉及网络支付、网络保险、网络借贷、供应链金融、消费金融等领域,既有数字金融的常规业务也有传统金融的创新,既涉及B端欺诈也包括C端欺诈,既有事前识别拦截也有事后打击制裁,可以说是对数字金融领域的欺诈与反欺诈所做的一次较为全面的总结。

通过白皮书的发布,一方面,我们希望为行业提供一本新型欺诈真实案例的“警示录”,并介绍反欺诈的先进经验;另一方面,我们借此呼吁行业内外的各界同仁携手,共同加强反欺诈技术的研究合作和数据信息共享,为数字金融的碧海蓝天贡献绵薄之力。

数字金融反欺诈是一场持久战,不可能毕其功于一役,只有在技术的不断迭代中实现自身的动态优化,才能取得真正意义上的胜利。反欺诈之路,道阻且长、行则将至!

中国人民大学金融科技与互联网安全研究中心主任 杨东

数字技术与金融的融合正成为一种不可逆的潮流,金融新模式、新业态不断呈现。然而有光的地方总有影子,技术在创造便利的同时,也带来威胁;金融的巨大外部性可以创造,也可以毁灭。数字金融在发展、升级,伴随技术而来的新型金融欺诈亦是如影随形,各种新手段层出不穷。欺诈事件,一方面不利于数字金融行业的良性发展,另一方面也对传统金融的创新业务造成了诸多不利的影响。严峻形势之下,反欺诈刻不容缓。

反欺诈是金融行业永恒的主题,在《数字金融反欺诈白皮书》中,我们从数字金融欺诈的特点和传统反欺诈手段的不足出发,具体阐述了数字金融反欺诈的主要技术手段在具体情境中的应用。新型金融欺诈步步紧逼下,传统的反欺诈手段无所适从,解决问题的手段必须是与时俱进的,技术是决定数字金融反欺诈取得实效的关键。白皮书中的8个典型的反欺诈场景应用,详细阐述了欺诈手法,重点介绍了反欺诈技术。数据的采集、分析、以及最后据此做出的决策在每个反欺诈案例中都落到了实处。这以一种更加直观的方式呈现了问题以及问题的解决之道。

无序且不受监管的个人数据使用是欺诈产业得以“壮大”的重要基础,数据的安全问题显得尤为重要。同时,数字金融欺诈多样化、产业化、隐蔽化、场景化的特点,决定了反欺诈方式必须从孤军奋战走向联合打击。此外,反欺诈不仅仅是针对既已发生的诈骗行为,事前做好防止工作,防患于未然、打击于无形才是上上之选。

如《双城记》中所言:“这是最好的时代,也是最坏的时代。”一方面,技术在发展,数字金融不断自我革新;另一方面,层出不穷的数字金融欺诈避之不及,只能直面。放眼金融科技的未来,我们怀着希望,也要保持警惕。《数字金融反欺诈白皮书》仅仅是开始,希望它能够起到抛砖引玉之效,激发各方对此的关注、思考,为促进数字金融行业的健康发展、维护数字金融行业的秩序贡献绵薄之力!

中国刑事警察学院网络犯罪侦查系主任 秦玉海

技术的革新下,金融的新模式、新业态不断涌现,对公共安全和社会治理也提出了诸多新问题,如何有效管控这些新模式、新业态,使其朝着正确的轨道稳步前进,是摆在行业和监管部门面前的共同难题。近年来,数字金融行业呈现出涵盖广、多元化、增长迅速的特点。与此同时,也有部分欺诈者利用技术、监管和公众意识等方面的不完善,演绎着千变万化、层出不穷的欺诈行为。令人欣慰的是,这也在一定程度上刺激了反欺诈技术的升级、改造和优化,更促使监管部门更多关注数字金融行业的合规发展。

《数字金融反欺诈白皮书》首先总结了数字金融欺诈的主要特点,在此基础上梳理了反欺诈技术的详细分类,然后基于选取的8个金融场景,认真分析每一场景下惯用的欺诈手法、反欺诈的先进技术以及反欺诈效果的可移植性,力求深入简出、剥丝抽茧地解析反欺诈技术如何精准识别打击欺诈行为的复杂过程。特别值得一提的是,为使读者更清晰快速地了解每个案例,本报告采用形象直观的可视化图形,真实还原了看似繁琐的欺诈手法,勾勒出反欺诈技术进行打击的逻辑路线图。

从数字金融反欺诈的实践经验来看,反欺诈之战不是某一种技术或方法的单打独斗,而是一场集数据、技术和机制于一体的综合防御战。其中,数据是反欺诈体系建设的核心和前提,技术是打赢反欺诈之战的重要支撑,机制是优化反欺诈效果、提升反欺诈能力的重要保障。“路漫漫其修远兮,吾将上下而求索”。只有立净化行业之志,举全行业之力,在反欺诈体系建立上加强合作、信息共享、共防共御,良性健康的数字金融生态圈才能逐步形成。

数字技术与金融行业融合发展,催生数字金融新业态。与此同时,金融欺诈风险不断扩大,反欺诈形势严峻。

数字金融欺诈呈现出专业化、产业化、隐蔽化、场景化四大特征。

传统反欺诈手段维度单一、效率低下、范围受限,难以应对新型的欺诈手段。

数字金融反欺诈技术主要包括数据采集、数据分析、决策引擎三大类型,结合运用能够解决传统反欺诈技术面临的诸多问题。

在网络支付、网购运费险、网络借贷、供应链金融、网络营销、消费金融、手机银行、农业保险等八大领域,数字金融反欺诈技术已经得到广泛应用并取得良好效果,具备向其他领域进一步移植、复制的可能。

反欺诈之战不是某一种技术或方法的单打独斗,而是一场集数据、技术和机制于一体的综合防御战。其中,数据是反欺诈体系建设的核心和前提,技术是打赢反欺诈之战的重要支撑,机制是优化反欺诈效果、提升反欺诈能力的重要保障。

第一章 金融欺诈风险不断升级

数字技术与金融行业融合发展,衍生出涵盖第三方支付、网络保险、网络借贷、供应链金融、消费金融、传统金融创新业务等数字金融的新模式、新业态。

数字金融欺诈风险不断升级,网络黑产发展肆虐,影响了消费者对数字化金融服务的信任程度。

异常平台和平台漏洞数量持续攀升,数字金融领域反欺诈形势严峻。

数字技术应用于金融,极大地解决了金融领域中信息不对称的问题,但新型的欺诈形式和手段也不断衍生。无论是根植于数字技术的金融业务还是传统金融的数字化,欺诈事件都层出不穷。这一方面不利于数字金融行业的良性发展,另一方面也为传统金融的数字创新业务带来诸多消极影响。

一、数字技术与金融结合催生新业态

在“互联网+”的大趋势下,数字技术与金融不断交融。国内金融科技创业公司、创新业务模式与解决方案不断涌现,涵盖第三方支付、网络保险、网络借贷、供应链金融、消费金融、传统银行创新业务等领域(见图1)。一方面,新兴的数字金融机构不断渗透到传统金融业务中,另一方面,传统机构也多方介入数字金融。

图1 互联网环境下,金融新业态

二、数字金融欺诈风险不断升级

数字技术的支撑下,金融市场的体量和发展潜力被逐步放大。与此同时,其暴露的风险隐患也与日俱增,欺诈现象层出不穷。从数字金融平台欺诈的角度看,违约欺诈平台占比已超六成。以网贷平台为例,截至2017年年末,累计问题平台数量为4039 家,占网贷平台总数的67.7%。从个人欺诈的角度看,由网络黑产主导的数字金融欺诈发展肆虐,已经渗透到数字金融营销、注册、借贷、支付等各个环节。据统计,2017年黑产从业人员超150万,年产值达千亿级别,应用数据分析手段开展金融业务的数字金融平台是黑产攻击的主要对象之一。

从市场的客观反映来看,数字金融的风控环节普遍面临较大压力。根据国家互联网金融安全技术专家委员会数据显示,截至2018年4月,其互联网金融风险分析技术平台发现了21624个存在异常的互联网金融网站和1362个互联网金融网站漏洞(见图2)。

存在异常的互联网金融网站和网站漏洞(单位:个) 数据来源:国家互联网金融安全技术专家委员会

从消费者的主观认知来看,欺诈高发降低了中国消费者对数字化金融服务的信任程度。信息服务公司益博睿与数据调研机构IDC联合发布的亚太地区《2017年欺诈管理洞见》,基于数字化接受水平、行业偏好、欺诈率,以及对企业欺诈管理能力四个变量制定了“数字化信任度指数”。调查发现,满分10分的前提下,中国对数字化金融服务的信任得分仅为3.87分,低于亚太平均水平(见图3)。

图3 亚太地区数字金融信任化水平 数据来源:《2017年欺诈管理洞见》

第二章 金融反欺诈手段不断演进

数字金融欺诈手段表现出专业化、产业化、隐蔽化、场景化的特征。

专业化即欺诈方向更加精准、手段更加多样;产业化即欺诈分子往往有组织、成规模、分工明确、合作紧密、协同作案,形成一条完整的犯罪产业链;隐蔽化即欺诈行为更加隐蔽,主要表现为异地作案、小额多发、取证困难;场景化即由于多数数字金融业务依托特定的场景开展,相应的数字金融欺诈也呈现出场景化特征。

传统的金融反欺诈技术面临新的欺诈形式暴露出诸多不足,包括维度单一、效率低下、范围受限等。

数字金融反欺诈技术能够解决传统反欺诈技术面临的诸多问题,从技术的运用层级和着力点划分,主要包括数据采集、数据分析、决策引擎等三大类型。

根植于数字技术的金融业务快速发展,加之传统金融行业不断向线上转移,由此引发的金融欺诈形式不断更新、纷繁复杂,相应的欺诈手段呈现出专业化、产业化、隐蔽化、场景化的特征,传统反欺诈手段在新形势下面临诸多挑战。通过数字金融反欺诈技术不断的自我革新,能够解决传统反欺诈技术所面临的维度单一、效率低下、范围受限等难题。

一、数字金融欺诈的主要特点

数字金融欺诈逐渐表现出专业化、产业化、隐蔽化、场景化的特征。

数字金融欺诈手段由之前较为简单的盗号、盗刷演变为现在的借助大数据等前沿技术,从撒网式向精准化转变,并叠加传销、兼职赚钱、网购退款、金融理财、虚拟货币等更为复杂多样的手法(见图4)。多样的诈骗手段加之数字金融、区块链等新词汇的注入使得数字金融诈骗更具迷惑性,不易被识别,受害人防不胜防。

图4 不同领域数字金融欺诈行为列举

同传统的诈骗相比,数字金融诈骗往往是有组织,成规模的,他们分工明确、合作紧密、协同作案,形成一条完整的犯罪产业链。这条产业链主要包括开发制作、批发零售、诈骗实施、洗钱销赃四大环节,进而又细分为软件开发、硬件制作、网络黑客、钓鱼零售、域名贩子、个信批发、银行卡贩子、电话卡贩子、身份证贩子、电话诈骗、短信群发、在线推广、现金取现、电商平台购物、黄赌毒网站等15个具体分工(见图5)。

图5 数字金融诈骗基本链条

互联网等技术的虚拟特性导致欺诈更为隐蔽,主要体现在三个方面:一是异地作案,金融欺诈逐渐呈现出移动化趋势,数字金融诈骗不受空间限制,甚至同一诈骗团伙的犯罪分子都来自全国各地;二是小额多发,由于数字金融具有普惠性,服务客户下沉,单笔诈骗造成的损失多数都在万元以下;三是取证困难,数字金融诈骗多存在盗号盗刷、冒用身份问题,仅仅依靠传统手段很难取证。

多数数字金融业务依托特定的场景开展,相应的金融欺诈也呈现出场景化特征。以网购场景为例,数字金融机构依托网购这一场景可以开展消费金融、供应链金融、退运险等多种金融业务,如果买卖双方勾结,虚构交易行为,则可能出现同一场景下的多种欺诈行为。商户卖家客户获得虚增交易量,获取供应链金融更高额度的授信,买家可能通过虚假购买行为,利用消费金融套现,此外,双方还能通过退货骗取运费险赔付。

二、传统反欺诈技术面临的挑战

维度单一、效率低下、范围受限是传统反欺诈技术面临的三大挑战。

(一)维度单一,央行征信系统覆盖率不足

传统反欺诈手段维度单一,很难对用户形成多维度的用户画像,进而通过用户画像对客户的行为偏好、偿债能力、支付能力和欺诈倾向做出分析。以央行征信为例,由于数据来源单一,我国尚有4亿信用白户(没有过信用卡和其他借贷记录),降低欺诈风险需要构建多维度的征信体系。

(二)效率低下,难以服务日益下沉的客户群体

传统反欺诈技术需要大量人工操作,应用成本高,效率低下。金融科技业务客群下沉,交易频繁、实时性强、数据量大,欺诈呈现出小额、高频的特点,传统反欺诈手段很难服务逐渐下沉的客群。

(三)范围受限,难以应对日益场景化的诈骗行为

随着数字技术的深入发展,金融欺诈和其他场景的结合日益紧密,呈现出“跨界”的特点。如网络购物、网络游戏等非金融场景中也蕴含金融欺诈风险,这些风险利用传统反欺诈技术很难识别。

三、数字金融反欺诈的主要技术手段

在欺诈团伙产业化、规模化,且广泛使用大数据、人工智能等前沿技术的今天,反欺诈技术能力直接影响着数字金融反欺诈的实际效果。从技术的运用层级和着力点来看,数字金融反欺诈技术可分为数据采集、数据分析、决策引擎等类型。

数据采集技术主要是应用于从客户端或网络获取客户相关数据的技术方法。值得强调的是,数据采集技术的使用,应当严格遵循法律法规和监管要求,在获取用户授权的情况下对用户数据进行采集。数据采集技术包括:设备指纹、网络爬虫、生物识别、地理位置识别、活体检测等等。

数据分析技术是指运用数据分析工具从数据中发现知识的分析方法。其中,机器学习技术是一种通过模型预测来反欺诈的数据分析技术。机器学习技术依赖数据,通过对数据的整理分析训练出合适的模型,再利用模型进行预测,达到反欺诈的效果。它包括有监督机器学习模式、无监督机器学习模式和半监督机器学习模式。

反欺诈决策引擎是数字反欺诈体系的大脑和核心。一个功能强大的决策引擎,可以将信誉库、专家规则和反欺诈模型等各类反欺诈方法有效的整合,并为反欺诈人员提供一个操作高效、功能丰富的人机交互界面,大幅降低反欺诈运营成本和响应速度。对于决策引擎好坏的判断,应当从引擎处理能力、响应速度、UI界面等多个维度进行综合判断。

第三章 数字反欺诈在不同金融场景中的应用

本章在对数字金融欺诈不同领域表现形式进行概括的基础上,选择了八个典型的欺诈场景,针对各个场景中的典型欺诈手法,重点介绍反欺诈技术及其应用的真实案例,并分析了技术应用的可移植性。

在网络支付环节,诈骗分子通过社工和技术手段,盗取用户账户,进行盗刷、洗钱等行为。行为序列、生物探针和关系图谱技术可做到前中后期对欺诈行为预警。行为序列记录用户购买历史,生物探针研判用户手机使用习惯,关系图谱则从人际关系网络对用户进行信用估算,三者结合形成立体人物画像,在反欺诈、盗刷以及群体涉黑挖掘场景中均可发挥作用。

虚构交易骗取保费是网购运费险欺诈的常用手法,利用大数据和机器学习技术能够在事前对保险产品进行差异化定价,在事后预测欺诈的概率。此外,这些技术也能移植到账户险、车险、医疗险等领域的欺诈行为识别中。

身份冒用是网络借贷中常用的欺诈行为,利用人脸识别、用户画像技术能够刻画客户个人的特征,并用于网络贷款交易事前、事中、事后全过程的欺诈识别。这两类技术不仅在网络借贷虚假申请识别中的应用效果显著,同时也可复制到传统银行业务的信用申请环节。

利用虚假号码注册后批量扫货下单是营销优惠欺诈中的常用手法。首先利用黑名单技术筛选疑似羊毛党的用户,若命中黑名单则直接拦截。在此基础上,利用设备指纹识别技术和机器学习模型能够有效阻击利用设备进行营销欺诈的羊毛党。设备指纹技术在对用户行为的追踪分析和征信数据获取方面具有很大的应用价值。

供应链金融欺诈归根到底就是将虚假的企业经营数据,作为供应链授信的依据。利用机器学习、关系图谱和设备指纹识别等技术,能够关联出企业在供应链上的经营关系,从而判断企业真实的经营状况。这几类技术的综合运用解决了需要大量人力物力进行信用主体身份核实和资料验真的问题,不仅仅在供应链金融,在消费金融、传统银行业务等领域均可高效使用。

在消费金融领域,诈骗分子骗取身份信息,在分期购物平台或现金贷平台套现,应用设备指纹、生物探针、行为序列等技术手段可以在事前防范、事中识别、事后拦截套现欺诈行为,该反欺诈技术手段可以在套现、盗刷等领域推广、应用。

在手机银行领域,诈骗分子利用木马病毒控制受害人手机,盗取其手机银行钱款。应用生物探针技术可以实现用户的身份判定,识别欺诈分子的恶意登陆行为并实时拦截。这项技术可向“手机防盗”等非金融领域移植应用。

在生猪保险领域,投保欺诈和重复骗保行为严重侵蚀保险公司利润,应用 “猪脸识别”和区块链技术能够为每头猪建立“唯一可识别编码”,并实现信息互通互享,自动识别保险欺诈和重复报案行为,该技术可向宠物保险领域移植应用。

我国网络支付发展迅速,从2013年始,网络支付市场的交易规模平均以50%的年均增速增长。2017年,我国网络支付交易规模达到近154.9万亿元,同比增长率接近44.3%。网络支付在线下小额和零售领域等适用场景不断丰富,渗透于消费、金融、个人应用等各个领域。

新的支付形式也催生了新的欺诈手段。在支付环节,黑色产业集团往往通过社工方式和技术手段,盗取利用个人姓名、手机号码、身份证号码和银行卡号等直接关系账户安全的要素,并进一步用于进行精准诈骗、恶意营销。虚假WiFi、病毒二维码、盗版APP客户端以及木马链接等是盗取用户私人信息的主要手段,获得的关键信息被收入数据库分类储存,其中,账户信息(如游戏账户、金融账户)通过黑色产业链进行金融犯罪和变现,用户真实信息除了贩卖外,更多用于商城盗刷。

网络支付欺诈案例:盗用账号支付

某大学生发现自己银行卡里的5万元“不翼而飞”。反复查询,他被通知自己在某电商平台注册了一个新账号,购买了高达49966元商品。实质上并非本人的购买行为。其实,该商城风控部门利用其风控体系在支付的那一刻已触发预警。接到预警后,风控负责人快速安排对这一订单的拦截,同时安排发货以进一步锁定嫌疑人,最终帮助挽回损失。

图6 盗用账号支付-欺诈过程

该案例是账号盗用的典例,其涉及四步具体操作(见图6)。第一步:放马。该团伙在大学城周边,通过伪基站发送带有木马病毒链接的伪装短信,该学生在点击链接后,用户名及密码均已泄露;第二步:操盘。由于直接盗刷银行卡难度较高、风险较大,骗子掌握各类信息之后,便想起通过商城购物的方式来进行变现。第三步:洗料。注册完账户,绑定银行卡之后,就会通过网上商城购买高价值物品,比如黄金、手机等。并通过对来电进行拦截或者设置呼叫转移,使得商品到达欺诈团伙手中。第四步:变现。通过地下黑色产业链销赃网络,将购买来的物品变现、分赃。

图7 盗用账号支付-反欺诈过程

反欺诈手段:该案例中,主要运用了行为序列、生物探针和关系图谱技术对支付环节的前中后期进行了风险预判(见图7)。

首先,行为序列技术发现了购买记录的异常。行为序列技术记录了该学生在平日购物时的购物金额、浏览时长、对比行为等因素,发现了购物金额不超过1000多元、平时要花时间进行同类对比、寻找优惠券的该学生,本次仅浏览了十分钟便下单购买昂贵的商品,马上触发了预警。其次,生物探针技术发现本次购买行为与往常不同。生物探针技术能够根据用户使用APP的按压力度、手指触面、滑屏速度等120多个指标,判断用户的使用习惯,因此,检测出本次购物中的异常使用情况。最后,关系图谱技术,通过用户关系估算用户的信用,同时周围与之相关人的信用影响到对该用户信用评估。关系图谱技术通过分析发现该学生对本商品的需求并不高,因此也触发了预警。

行为序列、生物探针、关系图谱等技术综合运用,可以有效识别支付环节的用户风险,同时可向其他场景复制、移植。

行为序列技术对用户购物行为、地址位置信息、过往订单信息、信用卡交易详情等信息进行实时监测,形成多维度用户画像。除了应用于用户身份识别和反欺诈,行为序列分析还能实现“千人千面”的精准营销。根据用户的历史购买和浏览习惯等信息可以推测出用户的年龄、性别、职业、爱好等身份特征,比如某位用户经常浏览母婴网站并购买孕期用品,则可推测该用户为一位准妈妈,进而可根据这些信息在不同时间为用户推荐恰当的商品,提高购买率。

生物探针技术打破了传统判别用户身份的逻辑,基于用户的行为特征模型,而不是仅仅依靠密码、验证码这些易被盗用的数字信息识别用户,这种技术应用在金融场景中效果尤其明显,但同时也可向其他非金融领域复制、移植。一是可以将生物探针这一技术手段广泛应用于社交、游戏、购物等各类移动APP账户安全保护中。智能手机及各类账户中存储着用户的大量信息,包括朋友联系方式、照片、数字资产甚至工作机密资料,一旦手机丢失或账户被盗,后果难以估量。目前应用的账户安全保护技术主要为数字密码、手势密码、手机验证码等数字信息,容易被不法分子攻击、破解,若加入生物探针技术,将能够从更多的维度判别用户身份,且不存在被盗风险。二是生物探针技术可以同账户安全险、手机丢失险等网络保险产品结合,帮助保险公司完善产品结构。生物探针技术集合上百项指标生成特有的用户行为特征模型,可有效进行人机识别和本人识别。若应用于账户安全险、手机丢失险的产品设计中,可有效降低出险率,同时帮助用户进行安全管理,让保险产品不仅能管理风险,还能保障安全。

关系图谱技术可以进行涉黑群体挖掘。通过记录用户节点信息,以及所有在这些节点上发生行为的相关行为的连接,最终把与之相关的一系列用户和行为都描述出来。它能有效识别数据造假、组团欺诈、辅助信贷审核、失联企业管理等等。在这个维度上做风控,可以将隐蔽在后面的欺诈行为提前预防、并拦截在体系之外。除了能识别金融领域的欺诈风险之外,关系图谱技术还可对持股结构、高管关系、涉诉案件等方面的欺诈行为有效识别。

关系图谱技术的主要特点是能够勾勒出看似不相关的主体间的隐含关系,从而对潜在风险的识别非常有效,从这一点上讲,关系图谱技术非常契合金融业务尤其是数字金融业务参与主体多、流程冗长的特点,能够在复杂的业务流程中梳理出一条简单清晰的主线,这不仅能够识别欺诈行为,而且对于某个业务场景下全局性金融风险的识别防范具有非常现实的意义。

中国保险行业协会数据显示,截至2017年上半年,互联网保险保费收入较2012年实现了20余倍的增长,特别是运费险、账户险等轻型险种呈现快速发展的趋势,并使许多碎片化、个性化、场景化的保险需求得到满足。以运费险为例,某电商平台推出运费险后退货纠纷率由2.15%下降到2.12%,客服介入概率降低了50%。与此同时,由于互联网保险险种的多样化,以及线上平台投保的便利性,滋生出了很多新型骗保的欺诈行为。同样以运费险为例,某公司上市运费险之初的赔付率竟高达90%,骗保的比重可想而知。因此,如何利用反欺诈技术构建科学有效的风险识别监控体系,已成为互联网保险行业亟需解决的问题。

无论是传统保险还是互联网保险,保险欺诈的主要类型主要有先出险再投保、隐瞒危险、虚构保险标的、重复投保,这些欺诈行为的根本目的是为了骗取保险金,只是在欺诈手段上略有差异。以运费险为例,其欺诈包括四个步骤:首先在网络购物平台注册店铺并购买快递单号;然后进行虚假发货,同时购买运费险;第三步,购买快递单号进行虚假退货;最后,在虚构收到退货的事实后骗取运费险(见图8)。

运费险欺诈案例:利用虚假交易骗取运费险

2017年9月,某保险公司营业部向警方报案称,有人利用在某网络商城的店铺进行虚假交易,骗取保险公司退赔的运费险。保险公司发现,去年7月这三家店铺的交易量突然暴增,2000多个买家集中下单,生成7.5万多笔订单,且这些订单最终都是退货并退赔运费。退赔运费每单20元,4个月的时间,保险公司为这三家店铺退赔了200多万元。

图8 网购运费险-欺诈过程

反欺诈手段:运费险反欺诈主要运用了大数据分析技术和机器学习技术,反欺诈的重点集中在事前定价和事后出险两个阶段(见图9)。

利用大数据和机器学习技术实现运费险产品的差别定价。从客户、商家及产品的多个维度分析,建立机器学习模型,通过模型预测出险的概率,结合产品定价方法对运费险保费实现精准计算,进而实现针对不同投保人的差异化定价。运费险差异化定价主要有三个特点:首先,进行风险定价的数据更加精细。保费和保额将利用买家、卖家在电商平台上的每一笔交易进行精准定价。其次,运费险中进行风险定价的数据更加全面。运费险定价中不仅依照投保人在其公司的内部数据,还可利用电商平台、快递公司提供的用户所有数据,甚至可获得同业公司的相关数据。这些数据极大丰富了风险刻画的维度,使得定价更加全面准确。最后,运费险中进行风险定价的数据是实时的。利用信息技术实时跟踪个体买家或卖家的情况,风险数据可以实时更新,定价也随着风险因子的改变而改变。

利用大数据和机器学习技术识别理赔欺诈。运用大数据及机器学习算法,预测案件在不同环节发生欺诈的概率,根据预测结果将案件分划分为不同等级,制定差异化处理方案。

图9 网购运费险-反欺诈过程

利用大数据、机器学习等人工智能技术,极大提高了互联网保险的数据获取途径、获取量以及对数据的掌握程度,给保险定价和理赔提供了详细信息。2017年某电商平台利用反欺诈技术避免的运费险损失就高达2000万元。此外,这些技术也能移植到账户险、车险、医疗险等领域的欺诈行为识别中。

从大数据分析的应用趋势来看,不仅在数字金融,在医疗、教育、交通、体育、政府管理等各个行业都能得到广泛应用。大数据分析技术应用的部分共性问题需要引起注意:一是规范数据标准,提高数据可用程度。大数据分析涉及的数据庞杂、混乱,数据的整合难度较大,在数据整合中容易出现结果偏差;二是大数据分析需要海量的数据基础,需要行业内甚至跨行业的数据共享;三是加强敏感信息保护,防范信息泄露风险。

机器学习技术通过计算机手段实现模拟或学习人类的行为,是人工智能的核心技术,可广泛应用于保险、反洗钱等金融领域及物流、医疗等非金融领域。以在反洗钱中的应用为例,反洗钱监控不仅要监测账户的交易行为,还要在相对较长的时间段对个交易行为进行模式分析,应用人工智能技术能不断学习不法分子的洗钱套路并有效识别、精准打击。

我国网络借贷行业出现早、发展快。自2007年,我国第一家网络借贷平台拍拍贷成立。经过数年的发展,我国P2P网贷规模已经成为世界第一。据网贷之家的数据显示,2017年全年网贷成交量接近2.8万亿元,相比2016年增长0.8万亿元,接近2015年成交量的3倍。

网络借贷行业快速发展的同时欺诈行为也层出不穷,据爱钱进网的统计,每100个拒贷案件中大约有16起涉及不同程度的蓄意造假或欺骗。由于线上造假成本低廉,诈骗技术不断更新,代办公司迅速崛起,社会个人征信体系不完善等原因,网贷行业也成为诈骗者竞相追逐的“蛋糕”。

网络借贷的欺诈行为主要有中介代办、团伙作案、机器行为、账户盗用、身份冒用和串联交易等。其中,身份冒用是比较常见的欺诈行为,它是指贷款人对提供的个人身份、财产证明等材料进行造假,甚至采用欺骗等违法手段获取他人信息,进而冒充他人身份骗贷。

网络借贷欺诈案例:网络借贷中的身份冒用欺诈

2017年3月,某中介通过QQ群招揽学生做兼职,中介给予每个学生一张手机卡,并要求学生拿此卡去银行办理工资卡。中介以登记为由,利用银行卡和手机号获取了学生的身份证、学籍、学历等信息,而后用绑卡方式向网贷平台申请了多笔信贷业务(见图10)。

图10 网络借贷-欺诈过程

反欺诈手段:针对身份冒用的欺诈行为,主要采取了人脸识别、用户画像等技术。

具体步骤包括:一方面,利用人脸识别技术识别是否是借款人本人发起的申请,具体操作上利用视频画面截取申请人脸部特征,与身份证照片进行比对验证。但由于该网贷平台没有视频验证的流程,就需要配合精准画像等技术进一步验证;另一方面,通过文本语义分析、用户行为分析、终端分析等等方法,刻画客户个人的特征,并用于网络贷款交易事前、事中、事后全过程的欺诈识别。例如,通过大数据分析投资者的行为轨迹发现,正常投资者会在申请的每个节点都停留几秒,而数据分析发现欺诈者不到10秒钟就走完所有流程,正常用户完成整个贷款申请流程至少需5分钟,且该用户的申请时间是凌晨2点。根据对用户申请速度、申请时间的分析,就可以判定出来这个人应该是欺诈者,于是平台立即拒绝了其贷款申请(见图11)。

图11 网络借贷-反欺诈过程

人脸识别和用户画像技术在身份冒用的欺诈行为识别中发挥了重要作用,通过图像采集、人脸检测、精确定位、数据标准化、人脸特征比对等步骤识别是否是本人操作,利用用户画像能够锁定客户的个性化特征,综合判定欺诈的可能性。这两类技术不仅在网络借贷虚假申请识别中的应用效果显著,同时也可向其他金融及非金融领域移植,复制。

人脸识别技术除在金融反欺诈中得到应用外,还可在公安刑侦、社会保障、边境检查等公共服务领域得到广泛应用。当然,该技术也存在一定的风险:一是脸部数据的可复制性,个人的脸部特征数据可在公开环境下直接获取并复制。二是脸部数据的不稳定性。脸部化妆、过敏、受伤、整容都会导致脸部特征发生变化,从而影响人脸识别准确率甚至无法识别。三是后台数据的安全性至关重要,一旦人脸识别、虹膜识别的后台数据被黑客攻破,对行业和社会都是毁灭性的打击。因此,人脸识别技术并不是风控中具有绝对杀伤力的武器,而应该结合反欺诈的其他技术手段配套使用,这是人脸识别技术运用的重要前提。

用户画像技术的本质是给用户行为贴标签,该技术的主要作用是通过数据挖掘,利用关联规则计算以及聚类算法分析用户偏好行为以及行为之间的内在联系。因此,该技术不仅能够识别用户潜在的欺诈行为,更重要的是能准确了解用户习惯和需求,在基于用户需求角度下的各类商业场景和公共服务场景都有应用的可能。值得注意的是,用户画像技术是多学科的结合,需要知识图谱、自然语言处理、机器学习和数据挖掘等方面的交叉融合。

营销欺诈即俗称的“羊毛党”,是指有选择地参与各互联网渠道的优惠促销活动,以相对较低的成本甚至零成本换取物质上实惠的人群。界定羊毛党的关键特征是,多频率、有组织地在单次营销活动中多次获取优惠金额的行为,其实质是由于其薅羊毛的行为侵占了其他用户本应享受的优惠活动,这种行为即是打击的对象。目前,羊毛党已形成15余工种、160余万从业人员、产业规模不低于1000亿元人民币的产业链,分工明确、合作流程成熟,并且逐渐向隐蔽、专业、精准方向发展。以某上市公司力推直播软件的营销活动为例,为获取客户量,只要注册软件就能获得奖励金并立即提现。2016年底,该公司投入近16亿元后净亏损约10亿元,最终被ST,而其中大部分奖励被羊毛党撸走,这说明羊毛党的行为已经严重影响了企业的正常经营。

羊毛党的主要类型:第一类是个人纯手工进行薅羊毛的行为,这类行为往往因涉案金额和规模小,不易受到商家的重视;第二类利用商家网站或APP,使用外挂程序将薅羊毛过程完全自动化;第三类通过破解后台接口建立虚假客户端进行薅羊毛;第四类是团伙羊毛党,通常是组织者利用QQ群、微信群指挥团伙成员薅羊毛,且这类薅羊毛行为呈现与平台、商家瓜分利益的趋势。

羊毛党的欺诈步骤为:首先,利用虚假号码进行批量注册,有些还会配合模拟器或IP地址修改工具进行;其次,利用上述账号进行集中的批量扫货下单;最后,将买到的明显低于市场价格的商品,以比较合理的价格倒手卖出,赚取差价(见图12)。

羊毛党欺诈案例:营销优惠欺诈

某网上商城每周六推出满80减20活动,活动开始后一个月发现大量订单支付失败,其中金额恰为80元的订单占比较高,且这些订单绑定的支付卡余额均为60元。该商城风控部门利用其风控体系及时识别了疑似薅羊毛的订单,并在支付时进行事中拦截。

图12 网络营销优惠-欺诈过程

反欺诈手段:在识别羊毛党的过程中,主要使用了设备指纹识别技术和神经网络模型等机器学习技术。

具体步骤包括:首先,利用黑名单技术筛选疑似羊毛党的用户,若命中黑名单则直接拦截。在此基础上,综合运用设备指纹技术和机器学习技术识别羊毛党的欺诈行为。一是利用设备指纹技术识别出部分羊毛党在一台终端设备上登录上千个PIN码进行操作,同时发现出现大量金额恰好为80元的订单,据此判断存在欺诈的可能。二是利用机器学习技术对用户的购物行为、交易习惯、交易次数等数据进行综合分析后,判断该用户是否为羊毛党(见图13)。

图13 网络营销优惠-反欺诈过程

该案例最终拦截近10%的支付订单,为商家挽回100余万元的损失。据估算,采用反欺诈技术每年能为全行业节约10%-50%的营销优惠成本。设备指纹识别技术配合机器学习模型能够有效阻击利用设备进行营销欺诈的羊毛党。

设备指纹识别技术根据不同的识别方法,大体上可分为主动式、被动式和混合式三种。三种方式在隐私保护、响应速度和准确率方面存在一定差异。设备指纹识别技术在数字金融领域的应用集中体现在两个方面:一是对用户行为的追踪和分析,比如购物网站会采集用户的设备信息,并根据设备指纹信息对用户进行相关的商品推荐,实现精准营销。更为重要的是,利用采集的信息形成设备指纹,给用户提供更好的安全保障,比如检测到用户的风险登录、更换设备登录要求用户进行二次验证等等;另一方面,利用设备指纹技术记录用户在互联网上的活动并进行信用评分,这将对互联网征信体系健全起到极大的促进作用。

机器学习技术的可移植性参考场景1。

供应链金融是指金融机构将核心企业和上下游企业联系在一起提供灵活运用的金融产品和服务的一种融资模式,它在为中小企业拓宽融资渠道、为银行等金融机构开源新财路等方面效果显著。2014年以来,受益于应收账款、商业票据及融资租赁市场的不断发展,供应链金融在我国发展较为迅速。一方面,供应链金融正不断创新求变,探索新模式、新市场、新领域,在解决中小企业融资难方面发挥了重要作用,推动了商业生态的发展;另一方面,由于参与主体众多、欺诈风险难以识别和控制,也制约了行业长期健康发展。

供应链金融企业欺诈行为的本质是利用经营数据造假来骗取供应链信贷支持的行为,因此,供应链金融欺诈归根到底就是企业经营行为的欺诈,具体表现在采购收回扣、销售截留货款、财务挪用公款、营销套取渠道费用、招投标索贿、售后虚报维修费用、生产虚构加班费、行政虚报管理费等等。这些欺诈行为一旦被认定为真实的经营数据,并以此作为授信依据,将对供应链金融发展产生巨大的风险隐患(见图14)。

供应链金融中企业欺诈的案例:企业经营数据异常的欺诈

某上市公司A企业接受尽职调查时提供给会计师事务所和券商的财务报表,除了银行贷款是真实的,隐瞒了应收账款、销售利润、民间借款、对外担保等信息存在造假的事实。而此时,B企业作为A企业的关联公司,向某线上平台提出了贷款申请(但B企业并没有告知平台其为A企业关联公司的关键信息)。

图14 供应链金融-欺诈过程

反欺诈手段:在识别上述企业的经营欺诈行为时,主要利用了机器学习、关系图谱和设备指纹识别等技术。

具体步骤包括:第一步,运用机器学习等技术对A企业的公开信息进行自动化审计后发现,其企业经营数据不真实。第二步,在发现A企业存在经营欺诈行为后,该线上平台自有的企业图谱及舆情系统利用公开的上市公司报告信息,能够描绘出包括注册地址、股东结构、经营范围、组织形态等信息在内的数千家企业关系图谱,关联出B企业是A企业的关联公司;第三步,由于B企业对线上平台提出了信贷申请,因此需要利用机器学习技术对B企业的经营数据等信息进行全方位审核。与此同时,利用设备指纹技术和机器学习技术发现B企业存在刷单欺诈行为(具体技术细节见场景4中营销欺诈案例)。第四步,综合B企业与A企业的关联关系事实和B企业刷单炒信的行为,该线上平台拒绝了B企业的信贷申请(见图15)。

图15 供应链金融-反欺诈过程

企业隐瞒经营信息并骗取信贷支持的行为,是供应链金融中比较常见的欺诈现象。综合运用设备指纹识别技术、关系图谱和机器学习技术,解决了需要大量人力物力进行信用主体身份核实和资料验真的问题,特别是关系图谱技术能够将企业经营行为表现在图上,从而呈现出不同企业的关联性和聚集性,增强识别企业欺诈行为的能力,能够极大地提高了此类欺诈行为的精准打击率。

各技术的可移植性参考其他场景。其中,关系图谱参考场景1、机器学习参考场景2、设备指纹参考场景4。

消费金融行业发展不断规范,前景依然广阔。艾瑞咨询数据显示,2017年,中国消费金融市场交易规模近2万亿,相较2016年增长128%。从资产端看,消费金融市场分为消费分期和现金贷两类,其中消费分期覆盖网购、租房、汽车、旅游、装修、教育、医美等行业和场景。

随着行业不断发展,专门从事消费金融欺诈的黑色产业也愈加猖獗,不法分子盯上了各类分期购物平台和现金贷平台,想方设法让其成为实施诈骗转账汇款的“工具”。监测数据显示,超过40%的逾期订单发生在疑似诈骗的用户群中,一旦黑客通过违法冒用客户信息申请到贷款,这笔订单注定违约。

消费金融的诈骗套现行为可能发生在账户注册、激活、登陆、交易、信息修改等各个环节。一是犯罪分子可能盗用空白身份信息,自己注册消费金融平台账号进而完成一系列的套现操作;二是用户本身注册过消费金融平台账号,不法分子通过拖库撞库等手段盗取账号,冒名登陆套现诈骗;三是受害人在不知情的情况下,陷入犯罪分子编织的骗局,客观帮助犯罪分子完成整个诈骗过程。最常见的冒用身份诈骗一般分两步进行,首先骗取身份信息或账号信息,不法分子利用网络、短信等发送假网站、假链接骗取账号密码,验证码,或冒充中介、客服直接骗取客户信息;然后冒用身份在消费金融平台进行借贷或购物套现。

消费金融欺诈案例:冒充中介,以兼职为名骗贷套现

某电商平台后台系统检测到某范围内的几个移动终端在短时间内通过多个账号登录平台,分期购买手机等数码产品,且购买习惯也同以往不同。发现这一情况后,平台及时拦截其继续交易并报案。

警方经侦查发现,包括黄某、王某等三人组成的犯罪团伙在附近的几所高校,谎称中介“借取”学生账号信息进行“刷单”并支付商品价值10%的费用,同时向学生承诺不需要学生承担任何还款义务和风险。实际上三人冒用这些身份信息在分期网站上购买手机等数码产品,准备销售套现后跑路。由于网站报案及时,警方及时为大学生挽回损失并将犯罪分子绳之以法(见图16)。

图16 消费金融-套现欺诈过程

反欺诈手段:设备指纹、生物探针、行为序列技术在事前、事中、事后全流程反欺诈。

在反消费信贷套现欺诈过程中,主要应用了设备指纹、生物探针、行为序列等多项先进智能技术。设备指纹技术通过用户指纹为每个用户账户建立唯一的ID,一旦发现冒用身份登录行为,可及时拦截;生物探针技术通过采集用户在使用设备的按压力度、设备仰角、手指触面等使用习惯,为其建立专属的行为模型,发现异常操作及时阻止;行为序列技术可以将用户的购买行为同历史购买习惯进行比对,预警可能发生的欺诈行为。 在上述的案例中,诈骗分子通过移动终端在短时间内登录多个账号申请消费分期产品,且专门挑选价值较高、易变现的数码产品进行购买这一异常行为,触发了电商平台的反欺诈预警。

上述反欺诈手段,不仅可应用在事后,还可对账号的异常登录和交易行为进行实时、多维度、动态校验,在事前、事中防范、识别欺诈风险(见图17)。

事前评估 依托大数据技术建立完善的风控模型和应用策略体系,能够剔除高风险用户,为安全交易建立第一道防线,防患于未然。

事中监控 风险订单监控系统可以对异常账户和套现风险进行实时监控和全面预警。通过各类数据接口、技术手段和安全体系对异常交易进行拦截。

事后处理 将识别出的套现欺诈信息关联扩散后加入黑名单体系,进行策略和模型优化升级,从而更精准的识别和拦截欺诈交易,提高欺诈分子的作案成本。

图17 消费金融-反套现欺诈过程

设备指纹、生物探针、行为序列等反欺诈技术手段可广泛应用于借贷类互金业务及各类账户安全反欺诈中,有效监测异常的注册、交易、登陆行为,降低欺诈风险,同时该类技术手段还可向信用审核领域复制移植。

综合运用各技术手段可实现全线上、零人工的授信和放款,相比于传统手段,信贷审核效率提高10倍以上,客单成本降低70%以上。传统的线下信贷审核需要依赖人工实地调查,获取客户授权打印征信报告,调取银行资金流水,担保人担保等繁琐流程。利用技术手段分析客户的账户基本信息、资金流信息、交易信息、物流信息等可从更多纬度形成客户的精准画像,进而为不同客户匹配不同的授信额度。值得注意的是,实现线上信审必须依托线上交易场景并沉淀足够的历史数据信息。

各技术的可移植性参考其他场景。其中,生物探针和行为序列参考场景1、设备指纹参考场景5。

商业银行对金融科技的发展日益重视,逐步加大在技术建设方面的投入。各银行纷纷利用互联网技术和手段,拓展包括直销银行、网上银行、手机银行等多元化的服务渠道,提升用户体验,增加用户粘性。随着智能手机的广泛普及应用,手机银行已成为商业银行的客户服务主要渠道之一,《2017年中国银行业服务报告》显示,我国手机银行个人客户已达15.02亿,同比增长57.52%。

在电子化渠道深化创新下,相应的欺诈手段与反欺诈技术也不断进化。根据中国银行业协会《中国银行业产业发展蓝皮书》数据,2016年中国信用卡欺诈损失排名前三的欺诈类型分别为伪卡、虚假身份和互联网欺诈。诈骗电话、钓鱼网站、木马病毒、短信劫持是诈骗分子的惯用伎俩和套路。随着人们防备的增加,诈骗分子的手法也越来越精准,他们会根据不同的人群特征,精心编造出各种主题实施诈骗,如会议邀请、包裹藏毒等。

手机银行欺诈案例:会议邀请二维码植入木马病毒

某公司员工打开手机邮箱,发现一封主题为会议邀请的邮件。打开会议邀请,提示可通过扫描邮件二维码注册信息,该员工对会议主题很感兴趣就用手机扫描了二维码并填写相关信息报名参会,几天后,发现自己网银账户中的两万元钱被盗。

事实上,会议邀请完全是骗子编造的钓鱼邮件,而二维码被植入木马病毒,该恶意控制应用会偷偷申请手机权限,隐藏图标,进而控制受害者手机,手机里的敏感信息进而被回传到骗子的邮箱,骗子通过后台登录受害者的网银账户,将钱款转移(见图18)。

图18 手机银行-欺诈过程

反欺诈手段:生物探针技术判别用户身份

生物探针技术,可以在用户操作手机APP时采集到包括手指触面、线性加速度、触点间隔等数百个行为指标,根据历史行为数据,通过机器学习计算专属行为模型,在用户操作手机时,可以将其当前操作习惯同历史模型比对,判断这个人是否为风险用户,实现用户的身份判定。这项技术应用于反欺诈和防盗刷的场景中,将能减少甚至避免风险事件的发生。在上面提到的案例中,如果应用了生物探针技术,将能够及时识别欺诈分子的恶意登录行为,并阻止转账行为的发生(见图19)。

图19 手机银行-反欺诈过程

生物探针技术打破了传统判别用户身份的逻辑。基于用户的行为特征模型,而不是仅仅依靠密码、验证码这些易被盗用的数字信息识别用户,这种应用在金融场景中效果尤其明显,但同时也可向其他非金融领域复制、移植。生物探针技术的可移植性参考场景1。

农业保险在乡村振兴中发挥着重要作用,但我国农业保险目前还主要依靠国家财政转移支付,商业保险占比较低。2004年原保监会正式启动政策性农业保险试点,至2017年我国农业保险已经覆盖全国所有省份,实现保费收入479.06亿元,支付赔款334.49亿元,参保农户2.13亿户次,受益农户5388.3万户次。但由于保费收费低、经营成本高、操作难度大、出险率高等原因,我国商业农险发展举步维艰,发生在农业保险领域的理赔欺诈,让本就发展受阻的农业保险处境更加艰难。

生猪保险是农业保险的重要险种之一,由于理赔欺诈及出险成本过高等原因,一直处于亏损状态。生猪保险的理赔欺诈主要有两种类型,一是投保欺诈,比如一个农户共养了100头猪,但只给其中的50头猪投保,100头猪中任何一头猪出现死亡都会向保险公司索赔,由于保险公司很难识别出险的猪是否投保,赔付率倍增;二是重复骗保,即猪死亡后,养殖户串通保险公司勘察员对死猪反复拍照,谎报死猪数量重复骗保。

生猪保险欺诈案例:保险公司勘察员串通养殖户骗保

某保险公司勘察员小张在半年时间内,多次串通养猪户投保人虚报保单、并自导自演死猪假现场,骗得保险理赔款15万元。后案件告破经警方问讯,原来,小吴半年前为某养殖户办理理赔勘察时,养殖户为了多获得保费,悄悄塞给小吴一包香烟并请他“通融”一下,后来两人合谋对死猪从不同角度拍照骗取保费。小吴发现这一“商机”之后又多次“指导”其他养殖户骗保,并从中收取好处费(见图20)。

图20 生猪保险-欺诈过程

反欺诈手段:猪脸识别、区块链技术,解决“活体唯一识别问题”。

上述生猪保险理赔欺诈的主要问题在于运用传统手段,很难解决“活体唯一识别问题”,将“猪脸识别”和区块链技术结合运用,可有效解决这一难题。一是“猪脸识别”采用迁移学习算法,可从不同角度进行猪脸信息采集,自动识猪,可以为每一头猪建立“唯一可识别编码”;二是由于从“小猪”到“大猪”的全养殖周期中,猪的外貌特征会发生较大变化,可选择若干关键节点,在猪的外貌特征没有发生质变的时刻不断更新图像数据,确保“唯一可识别编码”的连续性;三是运用区块链技术建立反欺诈信息共享平台,将投保信息以及历史索偿信息上链存储,有新的赔付事件发生时,只需将照片信息上传就能自动识别保险欺诈和重复报案行为(见图21)。

图21 生猪保险-反欺诈过程

运用“猪脸识别”和区块链技术可有效防止理赔欺诈,增加保险公司的盈利能力,从而促进农业保险持续、健康发展。

以“猪脸识别”为代表的图片识别技术还可向以下两个领域复制、移植。

一是应用在死猪无害化处理理赔产业链上,降低理赔成本。根据国务院要求,在2020年前要完成死猪无害化处理体系建设。原来养猪户发现死猪后,需上报保险公司,保险公司派勘察员现场勘察,确认之后等无害化处理厂将死猪回收处理后,保险公司才能进行理赔,整个流程耗时费力。应用“猪脸识别”技术,可以将整个流程线上化,养殖户只需将死猪照片上传给保险公司和无害化处理厂,无害化处理厂将猪回收,处理前在传送带再对死猪进行拍照匹配,便可实现自动化理赔,每头猪的理赔成本由原来的6元钱降低为6毛钱,节省90%的理赔成本。

“单体”养殖管理流程,降本增效。在农业养殖过程中,需要对一些价值较高的单体单独建档管理,以对“种猪”的管理为例,猪场需要对每头种猪建立数据档案并每天更新数据信息,传统流程包括棚舍信息采集、纸笔记录、EXCEL录入、系统录入等多个环节,耗费大量的人力、物力。应用“猪脸识别”技术可在养殖技术人员巡查猪舍时,直接对猪进行拍照识别,并将相应的信息录入到智能手机应用中,后台自动对每头猪的档案信息进行跟踪记录。值得注意的是,在实际落地应用过程中,由于环境遮挡、光线、移动等问题,会影响识别精准度,针对这一问题,可将“猪脸识别”和二维码识别技术结合运用,用产品方案弥补技术落地中遇到的实际问题,为行业提供更便利、可行的解决方案。

区块链技术的分布式存储、去中心化、不可篡改等特征,决定了其除了应用在金融反欺诈领域之外,还能改善众多金融及非金融场景的流程效率、降本增效。在资产证券化、资产托管、医疗、教育、政务等领域,区块链技术正在广泛应用。

反欺诈之战不是某一种技术或方法的单打独斗,而是一场集数据、技术和机制于一体的综合防御战。

数据获得是反欺诈体系建立的根本前提,强化对数据使用的安全保护、扩大央行征信系统的征信范围和加强信息披露,是反欺诈体系发展完善的当务之急。

中性的技术决定了其既可以被不法分子利用行诈骗之事,也可以服务于匡扶正义的反欺诈事业。一方面,我们要不断优化反欺诈模型和系统构建,综合运用多种技术手段对欺诈行为进行精准打击;另一方面,要将先进的技术在行业内共享,优秀企业的技术输出值得鼓励。

要从根本上弱化欺诈的动力源,需要我们不断优化机制。首先,要提高金融科技企业的门槛,做到扶优限劣。其次,需要多方共同合作,构建由监管部门、行业协会、金融机构、科技企业共同参与的反欺诈联盟。

反欺诈之战不是某一种技术或方法的单打独斗,而是一场集数据、技术和机制于一体的综合防御战。其中,数据是反欺诈体系建设的核心和前提,技术是打赢反欺诈之战的重要支撑,机制是优化反欺诈效果、提升反欺诈能力的重要保障,这三者的关系是相辅相成、相互促进。未来数字金融反欺诈之路应该从数据、技术和机制三个方面均衡发力:

数据获得是反欺诈体系建立的根本前提,获取征信主体在时间、空间等多维度的数据记录,是对其进行有效信用评估不可或缺的条件。综合来看,强化对数据使用的安全保护、扩大央行征信系统的征信范围和加强信息披露,是反欺诈体系发展完善的当务之急。

数据安全是第一道防火墙

数据是反欺诈的根本前提,无序且不受监管的数据使用却是欺诈产业得以“壮大”的重要基础。因此,个人数据在使用过程中的保护问题对于反欺诈体系的建立具有至关重要的作用。一方面,需要从国家立法层面厘清公民个人数据的使用权限和范围,明确一切未经用户授权的二次使用均属非法行为,进而从源头上掐断欺诈产业的数据来源。另一方面,企业要加强数据保护的技术研发,使所有数据能够按需利用不至于外泄,特别是在和第三方的开放合作中,也应该通过相关机制来保障数据的安全使用,构建数据使用的安全屏障。

扩大央行征信系统的征信范围

数字金融的健康发展也离不开央行征信系统的有力支撑。一方面,要将数字金融行业的征信数据纳入央行征信系统,丰富央行征信系统的数据来源,进一步提高央行征信数据的权威性和多样性。目前央行已经获准百行征信有限公司正式开展个人征信业务,这有望解决数字金融领域的征信缺失问题,也为下一步数字金融行业征信数据和央行征信系统共享打下了坚实基础;另一方面,获准数字金融企业使用央行征信数据,目前大多数互联网消费金融机构尚无法运用央行征信系统数据,使其在贷前应用大数据分析时,因缺失信贷信息而易面临较大信用风险。甚至许多欺诈者就是因为金融科技机构无法使用央行征信数据,肆无忌惮地进行欺诈。

充分的信息披露将极大程度地提高违约成本,使数字金融行业的诚信体系更容易建立。一方面要允许、鼓励众多主体共享信息,从而有丰富、透明和标准化的交易信息供市场评估筛选和有效决策。另一方面需要有充分、强制的信息披露。这不仅需要资金融入方或者说产品提供方主动披露信息,交易过程也会倒逼信息透明、强制交易双方互动筛选出更多的信息。

欺诈和反欺诈是对立的两面,中性的技术决定了其既可以被不法分子利用行诈骗之事,也可以服务于匡扶正义的反欺诈事业。为了更好利用技术手段打击诈骗行为,一方面,我们要不断优化反欺诈模型和系统构建,综合运用多种技术手段对欺诈行为进行精准打击;另一方面,要将先进的技术在行业内共享,优秀企业的技术输出值得鼓励。

不断优化反欺诈模型和系统构建

反欺诈模型和系统架构是构建反欺诈方案的核心要素。首先反欺诈模型是核心竞争力,特别是基于机器学习技术构建的反欺诈模型是重要的发展趋势,它能够分析各类用户的行为特征,并计算出金融业务不同环节中的风险概率,从而有效识别风险。其次,系统架构直接影响欺诈行为的识别效果,这对系统的处理速度和稳定性提出更高的要求。

随着欺诈手段逐渐升级,反欺诈技术也需要升维发展。一方面,要多种技术手段组合运用,构筑多维度的反欺诈模型,比如将数据采集、数据分析、机器学习等技术结合应用多维度整合、分析数据信息,有效治理欺诈行为;另一方面,要从跨行业的视角出发,对欺诈行为进行打击。行业之间跨界融合发展是大势所趋,只有从跨行业角度出发,多维度地甄别、审查,才能实现对欺诈行为的精准打击。

如前所述,优化模型、系统构建需要大量的人力和物力,拥有较大规模和较强实力的企业才能面面兼顾。目前部分中小企业限于技术水平、资金实力,反欺诈能力薄弱,但是技术成熟、反欺诈能力较强的企业可对中小企业赋能,补平短板,共谋和平的网络安全环境。实力较强的大企业要实现技术输出,才能增强整个行业的反欺诈能力建设。

欺诈泛滥一方面是由于不法分子利欲熏心,另一方面也是我们的现行机制漏洞给不法分子提供了犯罪的可乘之机。要从根本上弱化欺诈的动力源,需要我们不断优化机制。首先,要提高金融科技企业的门槛,做到扶优限劣。其次,需要多方共同合作,构建由监管部门、行业协会、金融机构、科技企业共同参与的反欺诈联盟。

提高金融科技企业的门槛

数字金融的欺诈乱象很大程度上源于行业内提供服务的企业良莠不齐:一方面一些规模小、实力弱的企业部分打着金融科技旗号的假金融、野金融公司的庞氏骗局、吸金等非法行为,使整个行业笼罩了一层阴影。因此,提高金融科技企业的门槛成为优化行业生态的关键之举。这需要监管部门要建立一套详细的指标体系对金融科技企业进行评价认定,同时在政策上对真正的金融科技企业进行引导和扶持,让优秀的企业有快速成长和脱颖而出的环境,做到扶优限劣,促进行业高质量发展。

数字金融欺诈多样化、产业化、隐蔽化、场景化的特点,决定了反欺诈方式必须从孤军奋战走向联合打击。这种联合打击集中表现在两个方面:一方面,构建由监管部门、行业协会、金融机构、科技企业共同参与的反欺诈联盟,建立数据、技术、人才等方面的合作交流机制,强化同业间风险联防与合作,提高违约成本。另一方面,目前数字金融行业的消费者保护存在很大程度的缺失,维权途径和渠道不畅,因此,要加强行业层面对消费者的权益保护,可以联合建立客户权益保护中心,建立行业风险缓释与互助机制。

附件一:数字金融欺诈行为名词表

1. 盗号(第三方支付)

第三方支付账号一般都关联着用户的银行卡、信用卡等信息,且多数第三方支付平台为了保证客户体验,只需首次授权,之后只要登陆网络支付账号就能使用信用卡或者借记卡付款,无须再次关联。所以第三方支付账号一旦被盗,将使用户的财产信息直接暴露在犯罪分子面前。犯罪分子通常通过木马病毒植入、钓鱼网站、拖库撞库等手段盗取用户网络账号。

2. 洗钱(第三方支付)

第三方支付账号一般可以关联多家银行的账户信息,利用第三方支付账号“漂白”通过非法手段获取的赃款相对容易。例如犯罪分子以前以银行对银行的方式进行转帐,易被发现也便于追查,现在犯罪分子先把钱转到第三方支付平台,然后分转至多个银行账户取现则隐蔽性更强。尤其一些网络支付平台在用户注册账户时对其注册身份没有尽到核查义务,导致账号非实名,有些账号甚至可以任意买卖,加剧了第三方支付沦为洗钱通道的风险。

3. 保险互助平台欺诈

借助互联网手段,实现保险互助,降低保费、惠及民众,是网络保险发展的初衷,但由于一些制度设计缺陷,为不法分子实施诈骗留下操作空间。借互助之名,行非法集资之实的“假互助平台”是一种典型的欺诈手法。另外,平台还有可能通过篡改投保人数、投保时间、投保人身份、挪用互助资金等手段侵害投保人利益。

网络保险不仅把互联网作为一种销售手段,同时也基于互联网业态创造了全新的保险险种,如退货运费险、账户安全险、延保险等,同时也滋生出很多恶意骗保的欺诈行为。比如电商平台的运费险,如果买家和卖家合谋,一单几毛钱的保费,就能骗取保险公司几十元的赔偿;再比如账户安全险,也有黑产团伙利用虚假账户恶意投保,通过骗保的方式获取巨额利息。

网贷平台欺诈主要分为“伪平台”欺诈、模式风险、中立帮助行为三类。“伪平台”即不法分子从一开始便抱着“卷钱”、“吸金”心理,以网贷平台之名,行集资诈骗之实。模式风险是平台本没有欺诈的意图,但运营模式客观上触碰法律红线且易发展成问题平台,比如自担保平台和债权转让平台。中立帮助行为主要是指网络中介平台在“贷款人”信息核查方面不能尽责或者明知信息不实仍为其提供互联网接入、广告推广、支付结算等帮助行为。

贷款人在网络平台提供的身份信息、财产证明等信息极易造假,不法分子通过假招兼职、冒充客服、发送木马链接等手段非法获取个人信息,冒用他们身份骗贷或套现,事后由被害人承担损失。

多头借贷即同一贷款人在多家平台提出信贷要求,多头借贷行为使违约风险增高,甚至一些恶意骗贷的欺诈用户开始就没有计划还款。

网络借贷滋生出专业中介和贷款业务,一方面,一些资质不好的人会联系中介,由中介包装身份(如挂靠工作单位、提供虚假财力证明等)后进行套现或贷款;另一方面,随着各公司风控能力日趋成熟,不少犯罪分子打着“中介”的幌子,进行套现欺诈。

网络商户贷款基于电商卖家的历史交易信息对其进行批量授信,商户信息(包括交易信息)的真实性与商户的还款能力、还款意愿息息相关。商户刷单行为夸大了交易量,虚构了交易额,一些原本不能获得授信的商户通过刷单获得信用额度,一些原本只能获得较低授信额度的商户通过刷单获得了超过其实际能力的高额度授信。

营销欺诈即俗称的“薅羊毛”,羊毛党是一个分工明确、合作流程成熟的产业链,不法分子利用电商的营销漏洞,通过QQ群、微信群、论坛等组织大家薅羊毛,部分“羊毛党”商家勾结,虚构交易,骗取电商平台的营销费用。

套现者采用消费金融产品支付购买手机、数码产品或虚拟商品(例如充值、机票、门票)等易变现商品,交易完成后通过咸鱼等二手交易平台转让出售,以此套取现金。

套现者使用消费金融产品支付购买产品后,再通过现金退款等方式直接获取现金。

买卖双方相互勾结,虚构交易或者虚抬价格,不法商户扣除好处费后与套现者直接现金结算。

拖库原指从数据库导出数据,在网络欺诈领域,指黑客入侵后非法窃取网站数据库。

撞库是黑客通过收集互联网已泄露的用户和密码信息,生成对应的字典表,尝试批量登录其他网站后,得到一系列可以登录的用户。

洗库,即对数据库中的资源进行层层利用,把里面的资源进行全方面的剥夺利用。

钓鱼网站通常指伪装成银行及电子商务,窃取用户提交的银行账号、密码等私密信息的网站。

也称木马病毒,是指通过特定的程序(木马程序)来控制另一终端设备。

附件二:数字金融反欺诈技术名词表

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据分析是指运用可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和管理、数据存储等方法对大数据进行分析的过程。

设备指纹是指通过用户指纹为每个用户账户建立唯一的ID,将用户的网络行为、设备、数据等综合信息建立稳定联系,保证用户安全。设备指纹技术可以用于包括账户安全、支付安全、营销安全在内的交易全生命周期监控。

网络爬虫技术既可以用于用户运营商数据、信用卡数据、网络交易数据等各类数据等的爬取,也可以应用于司法老赖名单、网络核查数据的爬取的技术(或把前面的“即”改为“既”)。

黑名单筛选是针对注册用户反欺诈的技术手段。根据用户注册时填写的姓名、身份证号、手机号、银行卡号等要素信息,加上平台通过SDK抓取到设备指纹和IP,进行多维度筛选,与黑名单进行匹配,命中即拒绝。

生物识别技术如声音识别、人脸识别等,是指对用户特定生物特征进行检测和识别地一种技术手段,通过比对用户的生物特征信息,判断用户身份,主要用于用户身份的核实等场景,防止出现用户账户被盗用的情况。

它是基于人的脸部特征,对输入的人脸图像或者视频流进行识别的技术。首先判断其是否存在人脸,如果存在人脸,则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息,并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份。

它基于眼睛中的虹膜进行身份识别。其核心是使用模式识别、图像处理等方法对人眼的虹膜特征进行描述和匹配,从而实现自动的个人身份认证。虹膜识别的主要步骤包括虹膜图像的获取、预处理、特征提取与编码和分类。

它可以通过客户端等途径采集到用户在使用过程中的多项指标(如按压力度、设备仰角、手指触面、线性加速度、触点间隔等),基于这些行为的历史数据,通过机器学习计算专属行为模型,用于识别是否为本人操作。

地理位置识别是一种通过真实地理位置识别基于位置欺诈行为的技术手段。地理位置识别利用包括IP、基站、WiFi、身份证、手机号及银行卡等多维度的地理位置信息的信息库,精准定位网络访问者的信息,包括城市、经纬度及网络类型等,从而识别欺诈行为。

活体检测技术主要通过要求用户做特定动作或朗读特定内容,对用户是活人还是机器进行判断和检测,是防范欺诈团伙批量攻击的一种有效手段。

文本语义分析主要用于对文本类数据的解析和挖掘,从用户评论等文本内容中提取用户特征。

关系图谱是利用图数据库,从特定维度对不同用户和不同操作行为之间进行关联和计算,从而发现不同用户和不同操作之间的关联关系,可以用于团伙特征检测等场景。

用户画像是一种通过精准识别用户而反欺诈的手段。用户画像根据用户社会属性、生活习惯、消费习惯等信息抽象出标签化的用户模型。构建用户画像的核心工作是给用户贴标签,而标签是通过对用户信息分析而来的高度精炼的特征识别。

有监督机器学习是反欺诈检测中最为广泛使用的机器学习模式。机器学习通常从有标签数据中自动创建出模型,来检测欺诈行为。其中包含的学习技术分别有决策树算法,随机森林,最近邻算法,支持向量机和朴素贝叶斯分类。

无监督机器学习是无需依赖于任何标签数据来训练模型的机器学习模式。其可以通过利用关联分析和相似性分析,发现欺诈用户行为间的联系,创建群组,并在一个或多个其他群组中发掘新型欺诈行为和案例。

半监督机器学习是有监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行欺诈识别工作。

区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算方式。区块链去中心化、去信任的机制能够在预防性反欺诈领域进行有效应用。

用户行为序列也叫“基于时间序列的用户行为”,是某一时间段内,按照时间先后顺序记录的用户从事某种活动的每一步行为。

更多精彩内容欢迎搜索关注微信公众号:原子智库(AtomThinkTank)

}

为石油化工,煤矿井下特种工况提供一系列的产品,软件解决方案

  • 化工危险场所通信安全解决方案

    在化工厂的火灾爆炸隐患中,电气的火灾爆炸是很重要的问题。特别是生产场所,约有80%以上生产场所区域存在爆炸性物质。而目前我国化工危险场所移动通信设备的普及率高,但是对移动通信设备的安全…

90%的客户关注这4个问题

我们发现,绝大部分客户咨询都十分关注以下4个问题,新研特种设备产品总监
根据8年的行业经验,给您详细做出解答

  • 01新研公司的实力怎样?

    专注防爆技术7年,是国家高新技术企业,获得ISO9001质量管理体系认证。

    成都双流区规上企业,厂房面积3000㎡左右,获得50多个防爆证书,以及大小专利10多项。

  • 02新研产品性价比怎样?

    源头厂家,省去中间商赚差价。

    产品种类多,满足客户一站式采购需求。

    产品质量过硬,通过专业机构颁发50多个防爆证书。

  • 03有什么耳熟能详的合作案例吗?

    新研成立至今,服务超过4500家企业单位。

    已成功为中石油、中石化、各地安监部门等大型企业提供防爆终端产品及服务。

    也曾服务齐鲁制药、众邦制药、恒生制药等制药企业。

  • 严格执行三包售后服务。

    有一只技术型售后团队,可快速响应售后问题

特种环境下,一个小的设计或装配缺陷都有可能引发危险

每一台终端设备,以苛刻的标准改装,防止各种可能引发爆炸,短路,过流的隐患

广西新研科技有限公司成立于2013年,生产销售:防爆手机、防爆相机、防爆摄像机、防爆平板电脑、防爆手持终端、防爆气体检测仪以及本安型仪器仪表,成立至今,新研服务超过4500多家企业单位,已成功为中石油、中石化、各地安监部门、海事局等大型企业提供防爆终端产品及服务,也曾服务齐鲁制药、众邦制药、恒生制药等制药企业。我们有一支经验丰富的研发团队,可根据客户需求,对现有产品做软件二次开发升级,也能给用户提供防爆产品定制服务。

}


Nature子刊:宏基因组研究超强综述——从取样到分析

创作:刘永鑫 审核:刘永鑫

原标题:鸟枪法宏基因组-从样本制作到数据分析

  1. 随着测序价格下降、配套软件的发表和更新,宏基因组广泛应用;

  2. 本文概述了宏基因组学的工作流程,总结了实验设计的基本思路,以及常见问题和解决方法;

  3. 实验阶段从DNA提取、文库制备和测序各阶段进行详细描述和经验分享;

  4. 分析阶段介绍了拼接、分箱、有参定量、基因和代谢通路和下游分析的方法和原理,同时对主流软件的优缺点和适合范围进行讨论;

  5. 本文是入手宏基因组研究必读综述,内容深入浅出,适合本领域各层次同行学习。

主编评语:此文是Nicola Segata领衔创作的宏基因组分析综述,是目前我所见到的指导宏基因组实验和分析最好的综述。Segata本人及其团队在宏基因组分析领域编写了最多的主流软件,如LEfSe、MetaPhlAn2基于多标记基因的宏基因组物种组成定量 、HUMAnN2基于UniRef数据库的功能定量 和等,而且还表发了众多顶级宏基因组研究文章,如、《Nature子刊:跨越人群的大肠癌肠道菌群特征和诊断标志物》(

细菌、古细菌、病毒和单细胞真核生物的不同微生物群落在环境和人类健康中起着至关重要的作用。然而,微生物经常难以在实验室中培养,这可能会混淆成员的命名和对群落如何运作的理解。高通量测序技术和计算流程已经应用到鸟枪法宏基因组学中,改变了微生物学。但仍然需要计算方法来克服影响基于组装和基于比对的宏基因组分析的挑战,特别是高复杂性样品或含有与测序基因组具有相似性生物的环境。了解这些群落的功能和表征特定菌株,为使用微生物工厂合成产品的治疗、发现和创新方法提供了生物技术前景,并可以确定微生物对我们的家园、动物和人类健康的贡献。

高通量测序方法可以对样品中的所有微生物进行基因组分析,而不仅仅是那些适合培养的微生物。鸟枪法宏基因组学(shotgun metagenomics)是对样本中存在的所有(’meta-‘)微生物基因组的非靶向(untargeted / ‘shotgun’)测序。鸟枪法测序可用于分析微生物群落的分类组成和功能潜力,并恢复全基因组序列。诸如高通量16S rRNA基因测序(其描绘所选生物或单个标记基因)的方法有时被称为宏基因组学,但这是用词不当,因为它们不针对样品的整个基因组含量

自首次使用以来的15年中,宏基因组学已经能够对复杂的微生物组进行大规模研究。通过该技术的发现,包括鉴定具有内共生行为的环境细菌门、以及可以对氨进行完全硝化的物种。其他值得注意的发现包括共生细菌中广泛存在的抗生素抗性基因,追踪人类暴发病原体,微生物组的病毒和细菌部分与炎症性肠病的强烈关联,以及监测菌株的能力 - 在粪便微生物组移植引起的扰动后肠道微生物群的变化。

在这里,我们讨论鸟枪法宏基因组学研究的最佳实践,包括目前认识和应用的局限性,并提供未来宏基因组学的展望。

在初步研究设计之后,典型的鸟枪宏基因组学研究包括五个步骤:(i)样品的收集,处理和测序; (ii)测序读长的预处理; (iii)微生物组序列分析分类学、功能和基因组特征; (iv)统计和后处理分析,以及(v)验证(图1)。许多实验和计算方法可用于执行每个步骤,这意味着研究人员面临着艰巨的选择。而且,尽管其显而易见的简单,但由于潜在的实验偏差以及计算分析及其解释的复杂性,鸟枪法宏基因组学具有局限性。我们评估每个步骤伴随的选择和常见问题。

图1. 宏基因组分析流程概述

步骤(1):研究设计和实验方案。在宏基因组学中经常低估这一步骤的重要性。步骤(2):数据预处理。数据质量控制(quality control,QC)步骤最小化基本序列偏差,例如去除测序接头、质量修剪、去除测序重复(使用例如FastQC,Trimmomatic或Picard工具)。还过滤外源或非靶DNA序列,并且如果比较分类群或功能的多样性,则对样品进行二次采样以标准化读长数量。步骤(3):序列分析。根据实验目标,采用“基于读长”和/或“基于组装”的方法。两种方法都有优点和局限性(表4)。步骤(4):后处理。可以使用各种多变量统计技术来解释数据。步骤(5):验证。高维生物学数据的结论易受研究驱动的偏差影响,因此后续验证至关重要。

附图1. 用于规划宏基因组学研究的示例工作流程

这里提出的建议针对的是该领域的入门级研究人员,特别是关注假设驱动的实验,与探索性/假设生成研究相比,这些实验当然可能设计得非常不同。

研究设计(蓝框),样品采集(绿框)和实验程序(黄框)的关键考虑因素突出显示。 了解混杂因素的可能性和设计的优化,可以显著地提高宏基因组序列数据和解释的质量。 附框1包含进一步的具体建议。

附框1. 实验设计中的问题和解决方案

为研究提供的统计功效和测序深度的要求

能够检测显著差异所需的样品数量和测序深度将取决于诸如不同样品之间微生物组成的一致性、样品的固有微生物多样性和所研究现象的效应大小等因素。

解决方案:决策可以通过相同类型环境中先前研究的结果来指导。在缺乏此信息的情况下,进行基于标记基因的初步研究以评估谨慎的列出的每个因素的可能相对影响。

通常很难选择对照组与不含其他混杂变量的目标样本进行比较。这方面的一个例子是啮齿动物微生物组研究,其中笼和动物批次效应可导致微生物组成的显著差异,与所研究的变量无关。另一个例子是与病例相关微生物组的横断面研究(cross-sectional study),在没有积极治疗的情况下患者无法取样。

解决方案:当前的最佳实践是尽可能多地收集关于每个研究组的元数据,并在比较组时将这些元素纳入后续分析中。对于临床样本,通常包括性别、年龄、抗生素/药物使用、地理位置、饮食习惯和布里斯托尔粪便图表分数等特征。对于环境样品,通常包括地理位置、季节、pH、温度等。有关规划啮齿动物微生物组研究的进一步广泛建议,来自同一患者/位置的纵向采样也可作为额外控制,特别是当纵向变化可以与元数据相关联。

可能很难以完全相同的方式处理和保存所有样品(例如,当不同研究组从多个位置提供样品时)。通过纵向研究,在最终时间点收集的样品在DNA提取之前,冷冻保存中花费的时间少于在其他时间点收集的样品。采样和保存程序的这些变化可能会引入系统偏差。

解决方案:在可能的情况下,对于给定研究中的所有样品,应始终对收集和保存方法进行标准化。在进行后续数据分析时,还应记录所有使用的程序并将其作为相关元数据包括在内。理想情况下,这应包括收集和DNA提取之间的时间,冷冻储存的时间长度和冻融循环次数等因素。对于哺乳动物的肠道样本,有一些证据表明,在长期冷冻储存后,甘油储存可能会产生更具代表性的成分结果改变。同样,在长期冷冻储存之前进行冷冻干燥可能是一种谨慎的方法。

二代测序技术是高度敏感的,这意味着非常少量的DNA足以进行测序。然而,常见的实验室试剂盒和试剂并非无菌,意味着这些中存在的任何污染都可能超过仅含有极低微生物量的样品中的“真实”信号。

解决方案。在测序之前,使用定量方法如qPCR测量样品中存在的生物量水平是明智的。含有少于105个微生物细胞的样品似乎受到背景污染的影响最大。表1提供了一些可以尝试的方法,以便在测序之前从样品中富集细胞数 / DNA产量。使用与实际样品相同的试剂盒/试剂处理的阴性对照样品应进行测序,以确定存在的污染微生物的类型。然后可以从最终序列数据集中生物信息地去除源自这些污染物的序列数据。注意,通过使用载体DNA可以增强这些阴性对照的灵敏度。

这一步骤可以极大地影响宏基因组学研究的结果。如果所选择的方法不够严格以从一些细胞类型中提取DNA,则它们将不会在随后的序列数据中准确地表示。从根本上说,DNA提取方法的最佳类型将取决于给定样品中存在的细胞类型的基本组成。不幸的是,即使在相同类型的样品中,这也可以变化很大(例如,一些人的粪便由革兰氏阴性物种主导,细胞壁相对容易破坏,而其他人的粪便由相对顽固的革兰氏阳性物种主导)。因此,没有一种DNA提取方法可以最佳地适用于所有样本类型。

解决方案:使用定义的模拟群落(Mock communities,人工混合成分确定的混菌),控制由来自特定环境中常见的物种类型的混合物的培养物组成,可以作为测试不同DNA提取方法效率和准确性的有效起点。通过包括系统发育上不同的物种集合可以优化模拟群落,这些物种已知在所研究的样本类型中通常很丰富。然而,使用简化模拟很难模拟真实微生物群落的复杂性,并且不可能测试未知/未培养生物的提取步骤的效率。大量证据表明,与化学裂解相比,将珠粒打浆步骤结合到DNA提取过程中可提高所得物种特征的产量和代表性。然而,这种类型的方法通常会导致更强烈的DNA打断,可能会限制新一代长读长测序技术的能力。在将序列数据上传到公共存储库时,DNA提取方法也应作为关键的元数据包含在内。这允许将方法选择的差异考虑到随后的荟萃分析中(荟萃分析包含来自不同实验室的宏基因组数据集)。

关于DNA提取方法选择,可阅读之前NBT发表的评测文章:

鸟枪法宏基因组学研究方案设计

基于假设的研究设计所涉及的步骤在附图1中概述,附框1中总结了具体建议。微生物含量可能因同一环境的样本而异,这使得在少量样本中检测具有统计学意义和生物学意义的差异变得复杂。因此,重要的是要确定研究是否足以检测差异,特别是影响很小时。一种有用的策略可能是生成试点(pilot)数据以获得功率计算(power calculations)。或者,可采用双层(two-tiered)方法,其中对用较便宜的微生物调查(例如16S rRNA基因测序)预筛选的样品,然后选择子集进行鸟枪法宏基因组学(N.S.)18。

特别是对于复杂环境的样品,对照可能很难获得。这对于那些研究人类微生物组的人来说尤其重要,其中栖息的微生物群落受多种因素的影响,如宿主基因型、年龄、饮食和环境。在可行的情况下,我们建议纵向研究纳入来自同一栖息地的样本,而不是简单的横断面研究,比较两个样本集的“快照(snapshots)”。重要的是,纵向研究不依赖于可能是非代表性异常值的单个样本的结果。排除可能被不需要的变量混淆的样本也是谨慎的。例如,在人类受试者的研究中,排除标准可能包括暴露于已知影响微生物组的药物,例如抗生素。如果这不可行,则应将潜在的混杂因素纳入比较分析(附栏1)。

如果样本来自动物模型,特别是共同饲养的啮齿动物,则应考虑动物年龄、居住环境、甚至处理动物人员的性别对微生物群落特征的潜在影响。通常可以通过单独容纳动物以防止微生物在笼子内、配偶之间传播来缓解研究设计中的潜在混杂因素(尽管这可能引入行为改变,可能导致不同的偏差),从而在不同的实验群组中容纳动物。使用来自不同供应商或具有不同遗传背景的小鼠品系进行笼养或重复实验。

sequence,MIxS)必须列出,以提供所需元数据,但宏基因组学现在应用于不同类型的环境,难以选择适合每种样本类型的参数。我们建议将尽可能多的描述性和详细的元数据与每个样本相关联,以使研究群组或样本类型之间的比较更有可能与特定的环境变量相关联。

样品采集和保存方案可能会影响宏基因组学数据的质量和准确性。重要的是,在某些情况下,这些步骤的影响大小可能大于感兴趣的生物学变量的影响大小。实际上,样本处理方法的变化也可能是来自不同研究数据进行荟萃分析中的重要混淆因素(附框1)。已经针对一种样本类型验证的收集和存储方法不能被认为对于其他样本类型是最佳的。因此,通常需要仔细的初步工作来优化样品类型的处理条件(附图1)。

常温保存方法的比较,可参考

主要目标是收集足够的微生物生物量进行测序,并尽量减少样品污染。富集方法可用于微生物稀缺的环境(表1)。然而,这些程序可能会将偏差引入测序数据。一些研究表明,样品采集和冷冻的时间长度以及样品经历的冻融循环次数等因素会影响检测到的微生物群落特征; 因此,应记录收集和储存协议和条件(附框1)。

DNA提取方法可以影响下游序列数据的组成。提取方法必须对多种微生物类群有效; 否则,测序结果可能由仅来自易于裂解的微生物DNA支配。包括机械裂解(或珠击)的DNA提取方法通常被认为优于化学裂解的方法。然而,基于珠击的方法在效率上提高,但强烈的提取技术如珠击可导致DNA片段长度缩短,这可能导致在使用片段大小选择技术的文库制备方法中DNA丢失。

样品处理阶段可能会发生污染。试剂盒或实验室试剂可能含有不同量的微生物污染物。来自低生物量样品(例如,皮肤拭子)的宏基因组数据集特别容易受到这个问题的影响,因为与低污染水平竞争的“真实”信号较少,我们建议使用低生物量样品的研究人员使用超净试剂并加入’空白’测序对照,其中对试剂进行测序而不添加样品模板。其他污染源包括先前测序运行中的交叉污染、基于Illumina的测序方案中添加的PhiX对照DNA、以及人或宿主DNA。

表1. 在测序之前富集微生物细胞和DNA方法的优点和局限性

    • 即使微量材料也可以产生足够的DNA用于测序

    • 可以应用于提取环境DNA

    • 可以在一类样品中扩增全部的物种

    • 扩增会产生显著的偏差,对宏基因组表征产生影响

    • 扩增中产生嵌合体影响组装

    • 对感兴趣的物种无法改变其丰度比例(没有富集特定类群的能力)

    • 可以从未培养的生物体中产生基因组

    • 可以与荧光原位杂交等靶向方法结合使用,以选择特定的分类群,包括那些可能是微生物群落中罕见成员的分类群

    • 将基因组数据置于其正确的系统发育背景中

    • 参考基因组可以帮助宏基因组拼接

    • 分离单个细胞是成本昂贵的,需要专业设备

    • 需要全基因组扩增的步骤

    • 在基因组扩增过程中容易引入偏差,因此通常只能回收部分基因组

    • 提供对感兴趣的细胞进行高通量分选的方法

    • 可以选择特定的分类群,包括那些可能是微生物群落中罕见成员的分类群

    • 需要昂贵的设备和专业操作人员

    • 可能无法回收样品中附着于表面或固定在结构中的细胞,如生物膜

    • 可以收集的细胞数量受流速和分选体积的限制

    • 简化微生物群落结构,可以更容易地从宏基因组学数据中组装基因组

    • 富集样品中特定分类群的存在,可以提供有关其在微生物群落中功能作用的线索

    • 要求感兴趣的细胞可以在整个富集期内稳定地保持在微观世界中

    • 简化微生物群落结构,偏差有利于能够在微观世界中茁壮成长的生物

    • 允许对表型特征的分离株进行广泛测试

    • 参考基因组可以帮助宏基因组拼接

    • 提供功能数据以改进宏基因组学注释

    • 将基因组数据置于其正确的系统发育背景中

    • 通量低,可能是高度劳动密集型的工作(分几万个菌,点样就是一项体力活)

    • 受到在实验室中一些难培养微生物的限制(永远不可能培养所有微生物)

    • 不太可能恢复微生物群落的稀有成员,因为培养的分离物集合将由最丰富的生物体主导

    • 可以使用寡核苷酸探针来鉴定感兴趣的物种,如最近证明的不依赖于培养的病毒诊断(在病毒组研究中有广泛应用,如)

    • 通过仅关注感兴趣的物种,特别是当存在大量宿主污染时,可以实现更高的灵敏度

    • 与PCR一样,当目标生物与用于设计探针的参考序列相比变异较大时无法捕获

    • 可以对目标生物进行不均匀的基因组覆盖,影响组装

    • 可以富集特定的分类群,包括那些可能是微生物群落中相对罕见的成员

    • 远比单细胞基因组学或流式分选技术便宜得多

    • 与其他有针对性的浓缩技术相比,在技术上更具挑战性,且更耗时

    • 需要针对目标靶细胞的特异性抗体

    • 如果目标细胞数量低,可能需要在细胞分离后进行全基因组扩增

背景(人和真核)消减技术

    • 对于微生物细胞数远低于真核细胞的样品特别有用

    • 增强了对微生物基因组数据的检测

    • 需要较低的序列深度以获得良好的微生物基因组覆盖率,降低测序成本

    • 相对便宜,而不是技术上的挑战

    • 在加工步骤中可能失去感兴趣的细菌DNA,并在随后的微生物组分析产生偏差

文库制备和测序方法的选择取决于材料和服务的可用性、成本、易于自动化和DNA样品定量。 Illumina平台在鸟枪法宏基因组学中占据主导地位,因为它具有广泛的可用性,非常高的通量(每次运行高达1.5 Tb)和高精度(典型错误率为0.1-1%),尽管竞争的Ion Torrent S5或S5 XL仪器是另一种选择。诸如Oxford Nanopore MinION和Pacific Biosciences Sequel等长读长序列技术已经扩大了通量,现在每次运行可产生高达10 Gb,因此这些平台很快就会开始采用宏基因组学研究(详者注:两年后的今天,这些平台的准确度和通量均有明显的提升,而且已经有一大批采用三代测序的宏基因组文章率先发表于NBT杂志)。

三代测序应用于宏基因组的代表工作:

鉴于在单次运行中可实现非常高的输出,通常通过多达96或384个样品的标签混样一次对多个宏基因组样品进行测序,通常使用可用于所有文库制备方案的双索引条形码集。 Illumina平台在测序批次间(运行之间)和测序批次内(运行中)之间存在交叉污染的问题。最近,人们越来越担心使用新扩增方法(ExAmp)的新型Illumina仪器会遇到更高比率的“索引跳跃(index hopping)”,其中不正确的条形码标识符被纳入增长的簇中,但这种问题在典型宏基因组学项目中的程度尚未经过评估,Illumina已经提出了减轻此问题的最佳实践。研究人员可以通过随机选择含有已知加内参孔作为阳性对照,和模板阴性对照来评估这些问题的程度。这些措施对于诊断宏基因组学项目尤其重要,其中少量病原体读长可能是高宿主污染背景下的感染信号。尽管在该领域仍然不常见,但技术重复对于评估可变性是有用的,并且即使对样本的子集进行重复也可以提供足够的信息以将技术与真正的变异区分开来。

有多种方法可用于制备Illumina测序文库,通常使用片段化的方法来区分。例如,Illumina Nextera和Nextera XT产品中使用的基于转座酶的“标记(tagmentation)”很受欢迎,因为它的成本低(每个样品25-40美元,稀释方法可以进一步降低这些成本)。标记方法需要小的DNA起始量(建议使用1 ng DNA,但可以使用更少的DNA)。由于随后的PCR扩增步骤,这种低输入是可接受的。然而,由于标记靶向特定序列基序,它可能引入扩增偏差以及众所周知的与PCR相关的GC含量偏差。减少这些偏差的一种方法是使用依赖于物理片段化的无PCR方法(例如,无PCR的TruSeq)来产生可以更能代表样品中潜在物种组成的测序文库。

这里没有针对给定环境或研究类型的“合适”覆盖量/测序量的通用标准,并且这种数字不太可能存在。根据经验,我们经常建议选择一个最大化测序输出的系统,以便从尽可能多的低丰度微生物组成员中检索序列。 Illumina HiSeq 2500或4000,NextSeq和NovaSeq产生大量序列数据(每次运行120 Gb和1.5 Tb),非常适合宏基因组学研究(需要注意关于索引跳跃的问题)。这些仪器每次运行的通量是已知的,并且通过确定混样的数量,研究者可以设置每样品的期望测序深度。 2017年的典型实验旨在产生1到10 Gb,但这些深度可能过高或不足,这取决于检测样品中稀有成员所需的灵敏度(详者注:我见过的测序数据量范围是6-300GB,这取决于你想要研究多低丰度的物种,通用最低量 6Gb = 150 bp X 2 X 2千万,可使1%丰度菌基因组测序深度 = 6GB*1%/5MB = 12X,0.1%只有1.2X,而通常纯菌要获得较完整的基因组也需要30-100X的深度)。

Illumina平台的主要区别在于其总产出数据量和最大的测序长度。 Illumina HiSeq 2500虽然现在已有两代历史,但却是鸟枪法宏基因组学的热门选择,因为它能够在快速运行模式下生成2×250-nt读长(每个流通槽可产生高达180 Gb)或最多1个Tb处于高输出模式,具有2×125-nt读数。较新的HiSeq 3000和4000系统进一步提高了运行的总通量(4000的最高可达1.5 Tb),但读取长度限制为150-nt。 NextSeq台式仪器具有与HiSeq 2500快速运行模式类似的输出,但仅限于读长150 nt。然而,NextSeq的成本不到HiSeq价格的一半,因此可能对希望操作自己的仪器的研究团队具有吸引力。最近发布的NovaSeq平台承诺在不久的将来每个流动槽通量可达3 Tb。 Illumina MiSeq受输出限制(在2 × 300-nt 模式下高达15 Gb),但仍然是单标记基因微生物组研究的事实标准。 MiSeq(或MiniSeq)可能仍然可用于对有限数量的样品进行测序或评估文库浓度和平衡条形码混池,在运行更高通量的仪器之前提供良好初步结果判断,其中单个运行(Run)花费可能 > 10,000美元。

已经公开了许多用于从序列读长库中重建微生物群落组成的方法。选择“最佳”是一项艰巨的任务,主要取决于研究的目的。

宏基因组从头/无参(de novo)组装/拼接在概念上类似于全基因组组装。 de Bruijn图方法目前是一种非常流行的宏基因组装方法。对于单草图的基因组拼接,通过将每个测序读长分解为固定长度k的重叠子序列来构建de Bruijn图。这组重叠的“k-mers”定义了de Bruijn图的顶点和边。组装程序的任务是找到重建基因组的图形路径。生成非基因组序列的序列错误和重复序列会使此任务变得复杂,这可能导致错误组装和碎片化。

宏基因组拼接呈现出独特的挑战。首先,当组装单个基因组时,通常假设沿着基因组的序列覆盖近似均匀。组装程序可以使用序列覆盖来识别重复拷贝,区分真实序列和测序错误,并识别等位基因变异宏基因的拼接更困难,因为每个基因组的覆盖范围取决于群落中每个基因组的丰度。如果总体测序深度不足以在图中形成连接,则低丰度基因组可能最终碎片化。在图形形成中使用短k-mer大小可以帮助恢复较低丰度的基因组,但这是以图中重复k-mer频率增加为代价,掩盖了基因组的正确重建。组装程序必须在恢复低丰度基因组和获得高丰度基因组的长而准确的重叠群之间取得平衡。第二个问题是样品可含有相同细菌种类的不同菌株。这些密切相关的基因组可以在组装图中引起分支,其中它们可以通过单核苷酸变体或整个基因或操纵子的存在或不存在而不同。组装程序通常会在这些分支点处停止,从而导致碎片重建。

特定的宏基因组的组装软件试图克服这些挑战。 Meta-IDBA使用多重k-mer方法来避免选择适合低丰度物种和高丰度物种的k-mer长度的任务。 Meta-IDBA具有对de Bruijn图分区的扩展(与MetaVelvet一样),最新版本IDBA-UD优化了不均匀序列深度分布的重建。 SPAdes组装程序已扩展用于宏基因组装配,可用于组装使用不同技术测序的数据(二、三混合组装)

对于可能包含数百种菌株的复杂样品,必须尽可能增加测序深度。计算时间和内存可能不足以完成这样的组装。分布式组装程序,例如Ray,它在一组计算机集群上分布内存负载,已被用于组装来自人类粪便样本的宏基因组。为了帮助组装非常复杂的样品,Pell等人开发了一种轻量级方法,将宏基因组装图分割成可以独立组装的连接组件。另一种方法是潜在的菌株分析,使用k-mer丰度模式对读长进行分区,这样可以使用有限量的内存组装各个低丰度基因组。 MEGAHIT使用简洁的数据结构来降低组装复杂宏基因组的内存需求,并实现非常快的运行时间

MEGAHIT的文章导读和软件使用教程如下:

关于不同装配软件的关键指标(如完整性,连续性和产生嵌合重叠群的倾向)方面的表现,几乎没有同行的共识。尽管宏基因组分析“烘焙比赛(bake-offs)”旨在为分析软件提出具体建议,但软件性能很可能取决于生物因素(例如,潜在的微生物群落结构)和技术因素(例如,测序平台特征和覆盖范围)。在Assemblathon项目中观察到没有一个组装软件表现出“最佳”。

我们分析了模拟合成和真实群落的组装结果(表2和表3)。我们评估了MEGAHIT和metaSPAdes从模拟群体中重建已知基因组并捕获真实数据集中的分类学和基因多样性的能力。两者都成功地重建了超过75%的模拟群落 - 一个包含20个生物,另一个包含49个细菌和10个古菌。 MetaSPAdes产生更长的重叠群,但这些似乎不太准确。当限于与模拟群落中的参考序列完全匹配的重叠群时,MEGAHIT成功地重建了更多真正的基因组。因此,在这种情况下选择组装软件将取决于重叠群大小与准确度的相对重要性。在真实数据集(表3)中,难以辨别一致的模式。然而,检查中等单拷贝核心基因数(以估计组装中的基因组数量)表明,对于更复杂的土壤和海洋群落,MEGAHIT汇集了更多可以在功能上注释的基因。这里的关键结论是,不同的最先进程序对于不同的数据集将是最佳的,同时需要相似的运行时间(在最大样本上使用16个线程约48小时)和内存使用峰值(不超过125 GB)。因此,谨慎尝试不止一种组装方法。 CAMI挑战报告称,MEGAHIT在其基准数据集中是位于前三名的宏基因组拼接软件,并且与metaSPAdes(未在CAMI中评估)一起,可能是当前最佳选择。无论使用哪种组装软件,结果都不是基因组,而是潜在的数百万个重叠群,这促使需要使用分箱工具将重叠群连接回它们所衍生的基因组。

表2. 基于已知成份的模拟群落评估宏基因组拼接

meta-sensitive”用于“MegaHIT”。输入的宏基因组是先前描述的模拟群落的Illumina测序数据,其被子采样到5000万个读长以用于相同深度下多样性和其它结果的可比性。子采样的双端fastq文件位于 和 用于HMP模拟群落(包括20个菌株)和 和 用于环境模拟群落(包括59株)。通过与BLASTN比对模拟群落中生物的基因组的重叠群来计算重建百分比和百分比同一性。 N50值对应于重叠群的大小,其中较长的重叠群代表总组装的至少一半,并且它是评估组件质量的关键参数之一。在括号中,我们报告称为“完全重叠群(perfect contigs)”的统计数据,其是通过宏基因组拼接重建的重叠群,其在重叠群的整个长度上与参考基因组具有 > 99%的同一性。值得注意的是,“完美的重叠群”不包括嵌合重叠群。

表3. 不同环境宏基因组拼接的比较

使用如表2中报告的SPAdes和MegaHIT产生组装。通过HMP(二次取样5千万读长的宏基因组)在对肠样品进行测序 和 ),Ofek-Lalzar等人的土壤样本(5000万读长子样本宏基因组,网址为 和 )和Sunagawa等人的海洋样本( 和 ,有5000万读取子采样的宏基因组) 。功能注释如前所述进行,使用Prodigal(使用默认参数和“-p

宏基因组拼接高度分散,包含数千个重叠群(表2),研究人员不知道哪个重叠群来自哪个基因组,甚至不知道有多少基因组存在。重叠群“分箱”的目的是将重叠群分为物种。有监督的分箱方法使用已经测序的基因组数据库将重叠群标记为分类学类别。无监督(聚类)方法在数据中查找自然组

监督和非监督方法都有两个主要元素:用于定义给定重叠群和分箱之间相似性的度量,以及将这些相似性转换为赋值的算法。对于物种分类学,针对已知基因组的重叠群同源性是一种潜在有用的方法,但大多数微生物物种尚未测序,因此大部分重建的基因组片段不能比对到参考基因组。这促使使用重叠群序列进行分箱。不同的微生物物种的基因组包含特定的碱基组合,这导致不同的k-mer频率。基于这些k-mer频率的度量可用于对重叠群进行分组,其中四聚体(4 k-mer)被认为是对宏基因组学数据进行分类的最有用信息。基于这些频率的许多软件选择可供选择,例如朴素贝叶斯分类器或支持向量机,但序列组成通常缺乏将复杂数据集解析到复杂群落中物种水平所必需的特异性。

重叠群的聚类分析非常有吸引力,因为它不需要参考基因组。直到最近,大多数重叠群聚类算法,例如MetaWatt和SCIMM,使用了各种物种组成指标,有时还与总覆盖率相结合。最近,随着多样本宏基因组数据集的产生,研究人员已经意识到跨多个样本的重叠群覆盖提供了更强大的信号,可以将重叠群聚集在一起。基本原则是来自相同基因组的重叠群在每个宏基因组内具有相似的覆盖值,尽管基因组内GC含量变异和细菌复制起点周围的读长深度增加可以挑战这一假设。例如,第一种算法,例如扩展的自身比对,需要人工输入来执行聚类,这是基于可以在二维中可视化的覆盖信息和组成。现在可以使用完全自动化的方法,例如CONCOCT,GroopM和MetaBAT,它们便于大数据集,但是当结合人工细化时可以获得更好的结果,例如使用可视化工具,例如Anvio。

当前已经有很多更新的分箱方法和提纯工具,如:

genomes,MAG)的方法对于揭示细菌的多样性是必不可少的。从富含醋酸盐和过滤的地下水样品中回收来自候选门的近1,000个MAG,没有培养的代表,显示了这种方法的潜力。回收的基因组很小,新陈代谢最少,并且形成了与先前培养的细菌多样性分开的单系分支。这些已被提议作为新的细菌细分,通过宏基因组学揭示候选Radiation门。

通过检查在大多数微生物基因组中发现的单拷贝核心基因来评估MAG的完整性,例如tRNA合成酶或核糖体蛋白。纯MAG将使所有这些基因以单拷贝存在。构建后,MAG为比较基因组学提供了丰富的数据集,包括构建系统发育树,功能谱和样本中MAG丰度的比较(图2,补充代码和 )。

图2. 无参和有参宏基因组物种表征

从宏基因组病例对照设计开始,我们说明了识别生物体和编码功能所需的一些步骤,并尝试将这些样本的特征与病例或对照条件联系起来。 左边是一个基于组装的流程(这可以完全按照命令和代码作为GitHub库在 提供)。 右边是使用MetaPhlAn2、HUMAnN2和最近MetaPhlAn2方法的种水平扩展的基于读长的流程。 (原始数据可在 获得。)

宏基因组的分类学分析确定了宏基因组中存在哪些微生物物种并估计它们的丰度。这可以通过外部序列数据资源(例如公众可获得的参考基因组)在没有组装的情况下进行。这种方法可以避免复杂的拼接问题,加快计算速度,并能够分析无法重新组装的低丰度生物(附框1)。其主要局限在于以前无特征的微生物难以描述(附框1)。然而,可用的参考基因组的数量正在迅速增加,每年产生数千个基因组,包括一些来自新培养方法靶向的难生长物种、单细胞测序方法或宏基因组拼接的不可培养物种。一些样本类型(例如人类肠道)可用的参考基因组的多样性现在足够广泛,可以使无组装的方法开展分类学的有效分析,包括缺乏足够序列覆盖和深度的相对低丰度的微生物,以便组装基因组。由于缺乏代表性的参考基因组,对包括土壤和海洋在内的更多样化环境的分析存在困难。因此,通常建议在分析来自这些环境的宏基因组时使用组装。

具有物种水平分辨率的无装配物种学组成,利用参考基因组和环境特定组装中提供的信息,并已用于迄今为止进行的最大的人类相关宏基因组学研究。读长到基因组的简单比对可能导致具有许多误报的错误匹配,但是当基于最低共同祖先(LCA)策略进行后处理或者与组合插值相结合的马尔可夫模型时,这种方法已被证明是有效的。但是,这些方法的运行时间并没有改善基于组装的方法的运行时间。 Kraken也利用LCA,但通过用k-mer匹配代替序列比对来加速计算

通过从可用的参考序列中选择代表性或判别性基因(标记)进行分类学分析是另一种快速且准确的非组装方法,其已经通过若干改进,具有可操作性。例如,通过观察来自预组装的环境特异性基因目录的共同丰富的标记,MetaHIT联盟能够表征人类肠道中的已知和新型生物。类似地,mOTU侧重于普遍保守但系统发育信息标记(例如,编码核糖体蛋白的基因),而MetaPhlAn(图2)采用具有高辨别力的数千个进化枝特异性标记,并且有效地定量分析用于人类微生物组计划(HMP)的来自多个身体区域的微生物组具有非常低的假阳性率。这些方法是可扩展的,可用于大型宏基因组学荟萃分析。基于标记的方法也可用于使用数千个宏基因组的菌株水平比较微生物基因组学。重要的是,随着更多参考基因组和高质量宏基因组组件的出现,这些方法的准确性将得到提高。对于具有数百个样本的大型数据集,其上执行或解释宏基因组学是不切实际的,基于标记的方法是目前推荐选择的方法,特别是对于具有大量微生物多样性的环境,可充分表征的测序物种覆盖

  • MetaPhlAn2基于多标记基因的宏基因组物种组成定量

宏基因组中的基因和代谢通路

利用片段化但高质量的宏基因组拼接结果,可以使用适合的单基因组表征工具鉴定微生物群落的基因库。这些基因鉴定步骤,通常具有宏基因组特异性参数设置,然后是通常用于表征纯分离基因组组装的基于同源性的注释流程(图2)。实际上,尽管这种方法通常受参考数据库目录中大部分未表征基因的限制,到目前为止一些最大的鸟枪法测序工作已经使用宏基因组拼接结果来汇编人类和小鼠肠道的宏基因组参考基因集。

其他大的宏基因组数据集通过针对功能特征性蛋白质家族的翻译序列搜索来解释。包括手动注释和计算预测的蛋白质家族组合的数据库,例如KEGG或UniProt,可以用于该任务并且能够表征微生物组的功能潜力(图2)。单个蛋白质家族聚类成更高级别的代谢途径和功能模块,提供图形报告或综合代谢存在、缺失和丰度表,如HUMAnN流程。无论采用无组装/有参还是基于组装/无参的方法,分析群落代谢潜力的主要限制因素是大多数微生物物种中缺乏对基因的注释(选定的模式生物除外; )。这意味着在宏基因组中更加一致地检测和量化高度保守的途径和看家(housekeeping)功能,这可以解释为什么即使分类组成变化很大,功能性状在不同的样品和环境中经常出乎意料地一致。微生物蛋白,编码基因和其他基因组特征(tRNA,非编码RNA和CRISPR)的实验证明和功能描述,以更全面地评估个别基因座的功能是一个瓶颈,目前对分析宏基因组功能能力的提高具有至关重要的影响。

对宏基因组的代谢功能分析的补充方法是对感兴趣的特定功能的深入描述。 例如,在微生物群落中鉴定参与抗生素抗性的基因(’抗性组resistome’)可以告知抗生素抗性的传播。 临时方法(Ad hoc)和人工策划的抗生素抗性基因数据库对这种方法至关重要; ARDB是第一个广泛采用的抗性数据库,现在由其他资源补充,例如Resfams。 相当大的努力也致力于报告宏基因组的毒力库; 针对特定感兴趣的基因家族的宏基因组的靶向分析也可用于验证来自单个基于培养分离实验的发现。

框1. 宏基因组的局限性的机遇

鸟枪法宏基因组研究存在一些局限性和挑战。局限性包括

在无法获得测序和计算设施的情况下,对大量宏基因组进行测序和分析仍然很昂贵。改进的测序平台和云计算设施的发展将会降低这些入门级成本。

可用的 > 50,000个微生物基因组的集合偏向模式生物,病原体和易培养的细菌。所有宏基因组计算工具在某种程度上依赖于可用的基因组,因此它们受参考序列资源中偏差的影响。

由于大多数基因缺乏有效的注释,因此宏基因组中存在的功能类别的分析受到阻碍,这个问题只能通过昂贵且低通量的基因特异性功能研究来缓解。此外,内在的微生物组特性,例如其平均基因组大小,可以严重影响定量分析。

以前,基于培养的方法或宏基因组学可能尚未对微生物组的若干成员进行过表征。基于装配的方法可以恢复部分“微生物暗物质”。在组装后,一小部分读长仍可能未被使用,并且该部分的大小高度依赖于群落结构和复杂性(表2和3)。它还受到诸如测序噪音,污染物DNA和微生物以及质粒的影响,即使在其基因组的部分组装后仍保持在分类学上模糊不清。

在宿主细胞死亡后,DNA在环境中持续存在,因此测序结果可能不代表活性微生物群体。如果目的是研究活性微生物,可以使用结合游离DNA的化合物如异丙脒(propidium monazide),去除死亡或受损细胞内的DNA,或使用宏转录组技术研究有活跃表达的RNA部分。

定量宏基因组特征报告结果为相对总体的比例,与实际绝对浓度无关。因此,样品中真实浓度的变化可能产生错误的相关性。例如,如果高度丰富的生物体在两个相同的样品中使其浓度加倍,则样品中的所有其他生物在标准化后似乎丰度都存在差异。

人体粘膜组织是微生物与免疫系统之间的关键界面,但由于人类DNA的极高比例和微生物量低,因此用鸟枪法宏基因组学对粘膜微生物组进行测序是非常具有挑战性的。

鸟枪法宏基因组研究也提供了众多机遇,例如:

尽管使用RNA、蛋白质和代谢组学高通量检测可以对DNA测序进行有效补充,但是使用鸟枪法宏转录组学、基于质谱的宏蛋白质组学和代谢组学,目前尚不清楚如何在共同框架内整合和分析宏组学数据。

整合宏组学的方法,可参考此文:

可以通过鸟枪法宏基因组学检测病毒,但通常需要病毒体富集技术来获取更广泛的病毒。由于病毒基因组的可用性有限以及缺乏家族间系统发育信号,病毒组分析在计算上也具有挑战性。关于病毒组靶方富集的方法参考:。关于病毒组的常规分析套路,参考:

单一分离物测序的基因组分辨率仍然高于宏基因组背景下单个生物体的分辨率。将分析分辨率提高到单一菌株水平对于深入的群体基因组学和微生物流行病学至关重要。

许多鸟枪法宏基因组研究是横断面的,因此没有用于评估相互作用与受试者内部变异性和微生物组时间变异。已经开发了用于纵向队列研究的工具,但是需要更多的方法和数据来研究时间维度。

来自宏基因组研究的假设应该跟进实验工作以验证相关性和关联。纵向和前瞻性设置可以潜在地提供对感兴趣病症的致病动态的直接见解。

给定条件的微生物组生物标志物通常具有强烈的研究依赖性。因此,重要的是验证技术和群组中的生物标记物,以提高重现性并最小化批次效应。

强烈鼓励数据和元数据共享; 通常在发布和开源软件之前要求进行原始数据存储。然而,宏基因组学尚未达到其他更成熟的高通量技术的标准化特征水平。

无论用于初级宏基因组序列分析的方法如何,输出将包括样品与微生物特征(即物种、分类群、基因和通路)的数据矩阵。后处理分析使用统计工具来解释这些矩阵,并解释结果与样本元数据的关联程度。许多这些统计方法并不特定于宏基因组学。宏基因组衍生的定量值具体挑战,包括物种和功能组成的比例性质以及丰度的对数正态长尾分布。这些问题在高通量16S rRNA基因扩增子测序数据集中也存在问题,并且几种流行的R包,如最初为扩增子测序开发的DESeq2,vegan和metagenomeSeq,也可用于宏基因组学。

后处理工具包括传统的多变量统计和机器学习。无监督方法包括样本的简单聚类和相关,以及可视化技术,例如热图,排序(例如,主成分分析和主坐标分析)或网络,其允许以图形方式显示数据中的模式。一些无监督的统计工具旨在专门解决由宏基因组概况(组成型问题)(框1)的比例性质引入的问题,并推断群落内的生态关系。监督方法包括统计方法,例如用于组间差异直接假设检验的多变量方差分析(ANOVA),或训练模型标记样本组的机器学习分类器,例如随机森林或支持向量机。一个典型的机器学习例子是基于群落生态失调来诊断疾病(例如,型糖尿病),尽管开发交叉研究预测特征的研究具有挑战性。

无监督和有监督的方法将整个群落视为一个整体。补充策略是询问哪些特定分类群或功能基因在样本类型或患者组之间在统计学上是不同的。鉴于宏基因组学数据集的复杂性,和通常可以进行的大量比较、多重比较或效应大小估计的校正是至关重要的。

稳健的统计检验是确定结果有效性的关键,但简洁的图形表示可以直观地揭示模式。在许多情况下,后处理结果的可视化需要特殊的图形工具和精心选择通用的可视化方法。

宏基因组学仍然面临着适用性、实用性和标准化的障碍(框1)。对于缺少大部分微生物生命之树和许多微生物基因的功能注释、参考基因组序列数据,大大降低了用于分析大量序列计算方法的潜力。来自土壤或水等环境的宏基因组特别受到这一问题的影响,因为它们具有较高的微生物多样性和这些群落中未知分类群的比例。鸟枪法测序也无法区分活体和死体来源生物。然而,前景是光明的,因为大量的湿实验室和计算研究人员正在逐步找到解决这些问题的方法。

宏基因组生物信息学工具正在不断改进,特别是用于将原始读长序列解析成有意义的微生物特征(基因组、物种丰度和功能潜能特征)(图1)。例如,现在可以进行种水平分析,但关于哪种序列分析方法最好(表4)仍存在争议。如果有足够的基因组覆盖率(即超过20倍),则宏基因组组装是优先选择的理论解决方案,但是对于大多数微生物组成员来说这种覆盖水平很难获得(表4),并且不组装的方法具有其他优点,包括进行大规模种水平分析的潜力。这两种方法的成功取决于微生物群落的组成和复杂性、测序深度、数据集的大小和可用的计算资源(表4)。我们建议研究人员尽可能使用这两种方法进行序列分析,因为它们相互补充和验证

至于群落DNA测序的技术改进,长读长序列平台已经成熟,并且可能对宏基因组拼接策略更有用,尽管目前很少有出版物(译者注:近期有大量相关研究,详见公众号目录或下面几篇三代测序在宏基因组中应用的文章供参考)。

如果实现足够的覆盖率(通常为30-100×),Pacific Biosciences仪器可以提供完整或接近完整的微生物基因组,具有低碱错误率。牛津纳米孔MinION是一种单分子、长读长设备,由于其尺寸和便携性(与智能手机相当)而具有吸引力,并且对该平台的读长的早期分析表明其错误率接近于Pacific Biosciences。将分离的基因组拼接成单个重叠群是可能的,因此MinION的便携性提高了野外宏基因组测序的诱人可能性。

从宏基因组改进基因组重建的另一种实验方法,是将Illumina测序与多标签文库制备方案相结合。这种“合成长读取”技术依赖于将基因组DNA稀释成由数百至数千个单个分子组成的片段化和条形码池,详见《》。对这些库进行测序并从头组装以产生合成的长读长。合成长读取的一个好处是因为它们是由Illumina序列的共识构建的,所以基本错误率极低。然而,该方案相当费力并且需要高DNA输入(1至10μg之间),并且局部重复序列存在问题。报告表明,这种方法对于宏基因组学是有用的,特别是当与标准鸟枪测序结合时,因为它可以从密切相关的菌株以及来自稀有微生物的菌株重建基因组。

鸟枪法宏基因组学的另一个突出优势是从遗传相近生物的混合物中精确重建株水平(strain-level)变异,基于组装、比对或两者结合的解决方案。比对到一个物种独特的基因可以解决样本中的显性单倍型,并且该方法已经应用于数千个不相关的宏基因组,提供了菌株水平的系统发育,使分析数百个基本上无明显差异特征物种的微生物群体基因组学成为可能。单个样品中来自相同物种菌株的混合物不能通过共有方法解析,但如果多个样品中存在相同的菌株,则单核苷酸变异中将存在特征。这些核苷酸变异可以与推断单倍型及其频率相关联。该方法最初仅在比对到参考基因之后应用,并且任选地与同时的菌株系统发育重建一起应用,但是现在它已经在完全无参考的方法中直接应用于具有菌株基因的拼接重叠群中。这种方法的一个限制是在某些环境中,如人类肠道,一种菌株通常比来自同一物种的其他菌株占主导地位。因此,检测低丰度物种的非优势菌株是具有挑战性的,并且用户必须权衡仅显性菌株的稳健性,与可从菌株混合物获得的潜在额外信息。 株水平宏基因组学是一个非常活跃的研究领域,它有可能赋予宏基因组学以类似于培养的单一分离物测序的分辨率。尽管长读长技术可以在未来帮助这些工作,但在此之前,解决宏基因组学株水平分析的计算挑战可以说是该领域面临的最大挑战。

表4. 宏基因组无参(组装)和有参(读长比对)分析方法的优点和不足

读长层面的分析(比对)
可以构建多个全基因组,但仅适用于具有足够覆盖的生物体以进行组装和分箱 可以提供群落功能或结构的汇总图,但仅基于有效比对到参考数据库的部分读长
在复杂的群中,只有一小部分基因组可以通过组装来解决 在给定足够的测序深度和令人满意的参考数据库覆盖范围的情况
可以解析没有序列亲源的全新生物基因组 无法解析无近亲生物的基因组
需要计算成本极高的组装、比对和分箱 可以高效执行,实现大型荟萃分析
可以通过完全组装的基因组将代谢与系统发育联系起来,甚至是新的多样性 通常可以仅解决群落的聚合代谢,并且只有在已知参考基因组的背景下才能与系统发育相关联
精确分箱和支架以及错误装配检测所需要手工进行 通常不需要手动,但选择使用的参考基因组可能涉及人工监督
可以将组装到微生物基因组流程中,该流程设计用于分析来自纯培养分离物的基因组 获得的概况不能直接放入源自纯培养分离物基因组的背景中

Venter领导的团队开始将全DNA测序应用于环境样品以来,鸟宏基因组学已成为研究微生物群落的重要工具。由于测序成本的下降和计算方法的发展,使得宏基因组学的广泛应用成为可能。研究人员现在面临的主要限制是培训计算科学家分析复杂的宏基因组数据集以及为设计适当的研究并有足够样本的成本。诸如对宏基因组解释的关键评估(CAMI)等倡议对于计算工具的无偏差评估以提高可重复性和标准化至关重要。

鸟枪法宏基因组学将在各种生物医学和环境应用中发挥越来越重要的作用。我们希望这篇综述能够让我们了解鸟枪宏基因组学的基本概念,包括它的局限性和巨大的潜力

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

}

我要回帖

更多关于 数据分析体系 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信