您当前的位置:首页 > 新闻 > 科技

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

时间:2020-07-16 11:21:25  来源:  作者:

医疗人工智能的最大挑战是:医疗机构之间的数据无法互通,任何一家医院(或数据中心)数据量都是有限的,形成了大大小小的很多“数据孤岛”。本文将介绍如何利用联邦学习技术在数据不出数据中心的情况下,进行模型的学习,达到或接近数据集中情况下的效果?

医疗领域的不可能三角

在很多领域都存在不可能三角(Impossible trinity)。不可能三角可以理解为在其他外部因素不变的情况下,有三个目标无法同时满足,决策中需要彼此权衡。在金融政策上有蒙代尔-弗莱明模型,资本自由流动、汇率稳定和货币政策独立性三者不可能兼得。医疗领域的不可能三角的三个目标分别为降低医疗费用(Cost)、增加医疗可及性(Accessibility)和提高医疗服务质量(Quality),我们可以称之为CAQ模型。其中,CAQ模型中的医疗费用比较好理解,不再赘述;可及性可以理解为患者在地理、物质和经济上能得到医疗保健的程度,比如说到医院的距离、排队挂号的难度、报销的比例等;服务质量也可以进行量化,如用再入院率、治愈率、存活时间等这些指标衡量。

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

AI技术有望打破医疗不可能三角

在2016年世界卫生组织(WHO)发布的报告中,美国医疗占GDP的比例为16.9%,中国仅为6%。在成本差距巨大的前提下,如何在可及性和服务质量上形成弯道超车?在所有新技术中,人工智能有潜力打破医疗不可能三角。AI可以通过技术路径把专家的智慧标准化、程序化、智能化,提高诊断、治疗的准确性和工作效率。以脑部影像分割任务为例,影像科医生通常需要花3天以上,不一致性为16%;经过训练的AI算法可以在10分钟内完成,同时保证不一致率小于1%。

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

法律对隐私的保护 对获取数据造成巨大障碍

一个鲁棒性高、性能好的AI模型往往需要大规模数据的训练。但在如GDPR等一系列涉及用户隐私保护的法律出台后,医疗AI遇到一个最大的问题是医疗数据很难出院、出机构、出市、出省、出国。

在国外,1996年,克林顿政府签署了经过参议院和众议院通过的医疗保险改革法案:HIPAA/1996;2000年,HIPAA公布了个人健康信息的隐私保护标准和实施指南;2016年,欧盟发布并于2018年实施的GDPR是目前最全面、应用最广的隐私保护法规,界定了数据主体权利、数据控制方、处理方的权利和义务,向第三国转移个人数据法规,独立检察机关角色,关于合作原则等;美国加州在2018年颁布,2020年执行了CCPA,授予消费者了解收集了什么信息以及与谁共享了信息的权利。

HIPAA:Health Insurance Portability and Accountability Act/1996,Public Law 104-191

GDPR:General Data Protection Regulation

CCPA:California Consumer Private Act

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

我国有关保护患者隐私权的法律规定对医疗人工智能获取患者数据同样有很多限制。2010年施行的《中华人民共和国侵权责任法》规定,医疗机构及其医务人员应当对患者的隐私保密,要求泄露患者隐私或者未经患者同意公开其病历资料,造成患者损害的,应当承担侵权责任。保护每一个人数据安全的法律体系的逐渐完备对医疗人工智能产品落地变得更加艰难。

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

国内外公司数据泄露事件频发 遭受处罚或股价受累

2017年7月,英国皇家NHS信托基金会在没有征得患者同意的前提下,向合作公司——DeepMind人工智能创业公司,提供了超过160万名患者的数据,违反了数据隐私法。

2018年3月17日,Facebook上超5000万用户信息在用户不知情的情况下,被政治数据公司“剑桥分析”获取并利用。在截至2018年3月23日当周,Facebook股价累计跌13.89%。

2018年,我国科技部公布国内某基因科技服务有限公司违规“通过网络将基因信息传递到境外”造成了基因数据泄露,可能会对国家安全造成严重的伤害。

2019年1月22日,法国监管机构对google开出了首笔GDPR罚款,金额达5000万欧元(约3.85亿元人民币)——这是自2018年GDPR法规生效以来首次对美国科技巨头实施的重大处罚。

联邦学习重塑医疗数据生态

一方面,医疗服务走到数据驱动年代,数据开放共享需求强;另一方面,医学数据具有强私密性,需采取高度保护措施。医疗数据管理方往往要求医疗数据不离国/省/市/机构。因此,在医疗数据利用方面不得不面对一个不可避免的问题:单一组织缺乏足够可用样本用于人工智能算法的训练。

联邦学习是一种有效打破“数据孤岛”的技术途径。联邦学习是一种具有以下特征的用来建立机器学习模型的算法框架。具有以下几个特点:

  • 多方参与:有两个以上参与协作构建一个共享的机器学习模型。每个参与方都拥有若干能够用来训练模型的数据
  • 数据不动:联邦学习模型相关信息能够以加密方式在各方之间进行传输和交换,并保证任何参与方不能推测出其他方的原始数据
  • 性能无损:联邦学习模型性能能够充分逼近理想模型(数据集中训练)的性能
“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

联邦学习的概念最早由Google提出。Google在一个针对Android/ target=_blank class=infotextkey>安卓系统中预测下一个输入词的应用中设计了联邦学习模型,用来更新数据联合建模方案:在单个用户使用安卓手机时,不断在本地更新模型参数并将参数上传到云上,从而使特征维度相同的各数据拥有建立联合模型的能力。联邦学习这一概念在2018年后被广泛应用于计算机视觉、自然语言处理和推荐系统中。开源生态逐渐萌芽,业内推出了基于Tensorflow和PyTorch的一系列联邦学习开源平台,并于2019年成立IEEE 联邦学习工作组开展相关标准的制定。

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

横向联邦 VS 纵向联邦

横向联邦学习适用于联邦学习的参与方的数据有重叠的数据特征,即数据特征在参与方之间是对齐的,参与方数据样本不同。

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

上图为横向联邦学习的数据结构。比如多家医院希望联合开展一项某项疾病的因素分析。每家医院的数据都不足以完成这个任务,但合起来的病历足够丰富,且每家医院采集的因素相似度较高。这种情况非常适横向联邦学习的应用。

纵向联邦学习 适用于联邦学习参与方的训练数据有重叠的数据样本,即参与方之间的数据样本对齐的,但数据特征上不同。

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

上图为纵向联邦学习的数据结构。比如医保局在分析医保欺诈的时候,支付数据不足以支撑欺诈识别的准确性,希望利用同样用户群的医院就诊数据和金融信用数据,但这两部分数据无法完全共享。这种情况非常适纵向联邦学习的应用。

联邦学习在医疗场景的应用

数据不足和标注不足是实现医疗AI的瓶颈。各医疗机构希望按照约定好的隐私保护条例共享各自的数据,并获得相应的收益,联邦学习是实现这一目标的非常重要的解决方案。作者Kim Y等人在论文《Federated Tensor Factorization for Computational Phenotyping》中在保证无数据离开本地医院的情况下,利用多医院的数据联合分析发现特定患者人群的表型。研究表明,单独使用UCSD医院1的数据或UCSD医院2的数据与联合利用两家医院的数据分析得出的结果差异较大,如果利用联邦学习的方式,在数据不出医院的情况下,仍然可以得到令人满意的结果。在联邦学习的情况下,算法可以找到单独利用一家医院无法找到的表征“镰刀型细胞/慢性疼痛”,避免由于人群差异和样本过小对结果产生的偏差。

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

作者Huang L等人在论文《Patient Clustering Improves Efficiency of Federated machine Learning to Predict Mortality and Hospital Stay Time Using Distributed Electronic Medical Records》中研究通过利用特征自编码器、患者聚类的方式提高联邦学习用来预测死亡率和住院时间的性能。聚类后的患者群映射到二维空间后的分布如图所示。患者聚类的操作可以大大降低在联邦学习梯度传输的通信负载。

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

另外一个经典案例是Intel支持的多个医疗组织联合开展的脑部肿瘤分割任务,利用多家机构的头部MRI数据,在数据不出院的情况下,训练影像分割模型,达到集中训练的效果。性能的收敛曲线见下图。

“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

 

总结与展望

联仁健康非常重视在医疗人工智能方向的自主研发与产业合作,致力于医疗大数据的价值的深度挖掘。公司利用累积的海量医疗数据训练并对外发布业界具有影响力的中文电子病历预训练模型、医学专业术语特征向量,在命名实体识别、关系抽取、医疗知识图谱构建等方面形成突破,打造电子病历结构化、智能搜索、相似病历查询等核心能力,全面赋能临床、医药、保险等行业。

医疗人工智能和大数据的发展涉及对人类社会的社会责任,需要兼顾算法性能、经济利益和对隐私和安全的严格要求。面对这一挑战,联仁健康致力于提供一个隐私安全计算的环境,使得各方在保护用户隐私和信息安全的前提下提升系统效率。

参考文献:

https://federated.withgoogle.com/

Qiang Yang, et. al, Federated Learning, Publisher: Morgan & Claypool. 2019

Kim Y , Sun J , Yu H , et al. Federated Tensor Factorization for Computational Phenotyping, the 23rd ACM SIGKDD International Conference. ACM, 2017.

Huang L , Shea A L , Qian H , et al. Patient Clustering Improves Efficiency of Federated Machine Learning to Predict Mortality and Hospital Stay Time Using Distributed Electronic Medical Records[J]. Journal of Biomedical Informatics, 2019, 99:103291.

https://www.intel.ai/federated-learning-for-medical-imaging/

 



Tags:智能医疗   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
一、热点前瞻热点一:数字货币逻辑概述:中国人民银行正计划在美团点评运营的平台上测试其数字货币,把这家有腾讯控股背景的外卖配送巨头拉入伙,朝着数字人民币的广泛普及迈出重大...【详细内容】
2020-07-16  Tags: 智能医疗  点击:(154)  评论:(0)  加入收藏
医疗人工智能的最大挑战是:医疗机构之间的数据无法互通,任何一家医院(或数据中心)数据量都是有限的,形成了大大小小的很多“数据孤岛”。本文将介绍如何利用联邦学习技术在数据不...【详细内容】
2020-07-16  Tags: 智能医疗  点击:(71)  评论:(0)  加入收藏
  医学人工智能(AI)对整个医疗产业产生的影响无疑是革命性的。各应用场景下AI公司开发的产品和服务,不仅使传统医疗生产活动成本降低、效果增强,而且为医疗相关产业链带来新...【详细内容】
2020-03-25  Tags: 智能医疗  点击:(65)  评论:(0)  加入收藏
▌简易百科推荐
非法购买公民信息、开发人脸认证规避技术……今年年初,广东省公安厅网安部门侦破全国首例破解“青少年防沉迷系统”的新型网络犯罪案件,抓获犯罪嫌疑人13名,查处非...【详细内容】
2021-12-28    人民日报客户端  Tags:数据安全步   点击:(5)  评论:(0)  加入收藏
就在今天,腾讯方面宣布将在2022年1月31日下架企业QQ和营销QQ,其实这一消息的降临并不让笔者意外,因为早在今年的10月28日20点之后,企业QQ和营销QQ就被停止了续费服务。相信很多...【详细内容】
2021-12-27  科技探险家    Tags:企业QQ   点击:(20)  评论:(0)  加入收藏
日前,上海交通大学发布《全球电竞之都评价报告》,对全球15个致力于发展电竞之都的城市进行评价,上海作为中国城市电竞发展的排头兵,其拥有众多优质电竞企业及完整产业集群,因此排...【详细内容】
2021-12-27  经济日报    Tags:电竞   点击:(3)  评论:(0)  加入收藏
为优化网络氛围环境,微博又开始整顿用户信息了。本月月初,微博官方发布公告,要求昵称中带有如“二货”“SB”“瘪三”“娘炮”等明显低俗或侮辱性词汇的用户尽快修改,否则将面临...【详细内容】
2021-12-24  运了个营    Tags:微博   点击:(10)  评论:(0)  加入收藏
昨日谷歌宣布,自2022年12月19日开始停止对OnHub的软件支持,OnHub路由器仍将提供Wi-Fi信号,但用户无法用谷歌Home应用程序管理它。无法更新Wi-Fi网络设置、添加额外的Wifi设备或...【详细内容】
2021-12-22  雷峰网    Tags:Google OnHub   点击:(5)  评论:(0)  加入收藏
IT之家 12 月 20 日消息,百度网盘青春版 iOS 客户端今日晚间率先开启内测,安卓客户端将在稍后内测。使用苹果 iPhone 的IT之家小伙伴可以点此下载内测版,需要先下载 TestFlight...【详细内容】
2021-12-21  IT之家    Tags:百度网盘   点击:(10)  评论:(0)  加入收藏
对于拼车单,是接还是不接,不少网约车司机表示很矛盾。接吧,钱少事多,常常跑了个寂寞,不接吧,车多客少,挑三拣四没饭吃。 在平台大力推广拼车单之下,不少司机迫于生活压力,最终还是打...【详细内容】
2021-12-17  网约车情报分享    Tags:滴滴   点击:(9)  评论:(0)  加入收藏
蓝鲸TMT频道12月16日讯,据饿了么官方微信公众号,近日,在圆桌会上,蓝骑士与平台交流了配送安全问题。饿了么表示,线上将技术手段融入安全防护;线下将持续进行安全培训,并试点智能头...【详细内容】
2021-12-17    金融界  Tags:饿了么   点击:(24)  评论:(0)  加入收藏
开源最前线(ID:OpenSourceTop) 猿妹编译项目地址: https://github.com/restic/restic全球知名代码托管平台 GitHub 今天就重磅发布了今年的年度报告——《2021 年度 O...【详细内容】
2021-12-17  Python部落    Tags:   点击:(9)  评论:(0)  加入收藏
新京报快讯 据中国网络视听节目服务协会网站消息,12月15日,中国网络视听节目服务协会发布了《网络短视频内容审核标准细则》(2021)。中国网络视听节目服务协会组织有关短视频平...【详细内容】
2021-12-16    新京报  Tags:短视频   点击:(11)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条