论文阅读：深度学习和病人分类 | Autobots, transform and roll out!

Paper: Opportunities and obstacles for deep learning in biology and medicine

一旦患者被确诊为某种疾病，会被分配到某个阶段。对于疾病阶段的定义方法：

人类定义 -> 临时性和进化性不足：可能会妨碍潜在的生物学机制及相应的治疗干预措施
应用于大量患者表型的深度学习方法 -> 纯数据驱动优点：在没有假设背景的情况下重新评估数据，可以揭示新的可治疗条件类别不足：不加选择的提取预测特征，不能提供对医生活动之外的潜在疾病的洞察

本节评估深度学习在多大程度上促进了新类别的发现和实现这些目标的障碍。

医疗健康中的图像应用

深度学习方法改变了对自然图像和视频的分析，并逐渐应用在在医学图像中。

例如：分类病变和结节；定位器官、病变区域；分割病变区域；根据内容检索图像；生成和增强图像；将图像和临床报告相结合。

所有情况中，可用于训练的图像不到一百万，比自然图像的集合小许多个数量级。因此有很多针对这一挑战的特定子任务的策略：

数据增强：处理小型训练集的有效策略
- 一系列分析乳房X线照相图像的论文[40-44]：
  - 为扩大图像数量和多样性，构建了对抗性训练实例[43]
  - 在微调前使用人类建立的特征训练[41]
迁移学习：重新利用从自然图像中提取的特征用于新的目的
- Gulshan等人重新利用了在自然图像上进行了预训练的48层Inception-v3结构，用于检测黑色素瘤，在2015年Kaggle比赛超越了最先进的特异性和灵敏度[49]。
- 磁共振图像（MRI）的分析也面临着小型训练集的挑战，Amit等人发现一个使用小数据集和数据增强的较小网络，可以胜过预先训练的域外分类器[59]。
划分富数据为众多缩小投影
- 3D数据化成2D数据：Roth等人证明CT扫描识别中2.5D CNN比3D CNN表现好，训练时间也更少[60]。
- 但是减少维度并不总是好的。Nie等人表明，多模式多通道3D深度网络成功地从MRI，功能性MRI和扩散MRI图像共同学习高级脑肿瘤外观特征，效果优于单模态或2D模型[61]。

总体而言，训练集的形式，属性和大小的多样性，输入的维度和最终目标而不是广泛研究的自然图像的特征在医学图像分析中的重要性正在启发专业深度神经网络架构，训练和验证方法以及输入表示的发展。

深度学习用于辅助诊断：

Kooi等证明深度神经网络在低灵敏度下优于传统的计算机辅助诊断系统，并且在高灵敏度下表现相当[62]。
针对难以为每个预测分配置信水平的问题：Leibig等人通过将辍学网络与近似贝叶斯推断联系起来，估计了糖尿病视网膜病变诊断的深度网络的不确定性
Ciresan等人开发了最早的组织学载玻片方法之一，赢得了2012年国际模式识别大会有丝分裂检测大赛[26]。
Wang等人分析淋巴结切片的染色载玻片以鉴定癌症[64]。
用于EHR（电子病例）：表型算法结合实验室测试，药物处方和患者注释，以产生更可靠的表型。

总而言之，生物医学成像对深度学习提出了许多挑战

数据集通常较小
注释可能是稀疏的
图像通常是高维，多模和多通道

因此，深度学习应用在生物医学图像领域和在自然图像领域的不同点：

大量使用转移学习，数据集扩充以及多视图和多流体系结构
高模型灵敏度和特异性可直接转化为临床价值。因此，预测评估、不确定性评估和模型解释方法非常重要。
需要更好的病理学家 - 计算机交互技术，这种技术将深度学习方法的力量与人类专业知识相结合，为患者治疗和护理做出更明智的决策。

医疗健康中的文本应用

生物和临床文本挖掘的主要任务包括但不限于命名实体识别，关系/事件提取和信息检索。

命名实体识别（NER）是将文本中的元素分成预先定义的医学概念类，如疾病、化学药物、医疗方法等等。在许多复杂的文本挖掘系统中，NER通常作为第一个步骤。
- 刘等人。研究了单词嵌入对药物名称识别的影响[75]。
- 唐等人研究了基因，DNA和细胞系中的词嵌入提及检测任务[76]。
- 吴等人研究了神经词嵌入在临床缩写消歧中的应用[77]。
- 刘等人。利用面向任务的资源来学习用于临床缩写扩展的单词嵌入[78]。
关系提取是检测和分类来自文献的实体之间的语义关系。
- 江等人提出了一种生物医学领域特定的词嵌入模型，以减少为同一任务设计语义表示的手工劳动[87]。
- 顾等人。采用最大熵模型和CNN模型分别在句间和句内层面进行化学诱导疾病关系提取[88]。
- 对于药物 - 药物相互作用，赵等人使用单词嵌入与句子的句法信息以及词性标签和依赖树的特征CNN[89]，Asada等人尝试了注意力CNN[90]，Yi等人使用具有多个注意层的RNN模型[91]。
- 对于生物群落事件提取，Li等人采用CNN和分布式代表[92]，Mehryary等人使用长期短期记忆（LSTM）网络来提取复杂的关系[93]。李等人应用单词嵌入从生物医学文本中提取完整事件，并获得与最先进系统相当的结果[94]。
信息检索是从大型文档集合中查找满足信息需求的相关文本的任务。
- Mohan等人。描述了一种深度学习方法，用于对文档文本与查询的相关性进行建模，并将其应用于整个生物医学文献[97]。

总而言之，深度学习已经在许多生物医学文本挖掘任务和应用中显示出有希望的结果，但仍需要大量的标记数据或产生技术进步以应对有限的标记数据。

电子病历

EHR数据包括大量的自由文本，针对这一挑战的研究：

Yoon等人使用深度神经网络分析病理报告的自由文本部分，以确定肿瘤的主要部位和侧向性[101]。
一些作者使用自然语言处理和神经嵌入模型为医学术语创建了可重用的特征集，MinarroGiménez等将word2vec深度学习工具包应用于医学语料库，并评估了word2vec在基于中型非结构化医学文本语料库识别药物属性方面的效率[103]。
已经开发出用于自由文本医学笔记[104]，ICD和国家药物代码[105,106]以及索赔数据[107]的技术。
从电子健康记录中学习的神经嵌入方法至少具有一定的能力来预测疾病的关联，并暗示与疾病有统计学关联的基因[108]，但所进行的评估没有区分简单预测（即不同位点的相同疾病）身体）和非直觉的。
Jagannatha和Yu进一步采用双向LSTM结构从电子健康记录中提取不良药物事件[109]，Lin等人研究使用CNN来提取时间关系[110]。

面临问题：缺乏对这些特征的实际效用的严格评估使得该领域的当前贡献难以评估。

从临床测试中确定个体的一致亚组和个体健康轨迹也是一个活跃的研究领域：

Lasko等人结合稀疏自动编码器和高斯过程来区分痛风与白血病和尿酸序列[111]。后来的工作表明，通过去噪自动编码器神经网络的无监督特征构造许多特征可以大大减少后续监督分析所需的标记实例的数量[112]。此外，它指出在无监督训练期间学到的特征对于在单一疾病中对患者亚组进行可视化和分层是有用的。
Miotto等人同时对700,000名患者的EHR数据进行大规模分析，使用深度去噪自动编码器架构应用于临床事件的数量和共现，以学习患者的表示（DeepPatient）。该模型能够在一年内预测疾病轨迹，准确率超过90％，与其他方法相比，患者水平预测提高了15％[113]。
崔等人试图用RNN对EHR的纵向结构进行建模，以预测一组260,000名患者的未来诊断和药物处方，随访8年（医生AI）[114]。
Pham等人基于这一概念，通过使用具有LSTM架构的RNN，通过使用存储器单元实现患者轨迹的显式建模[115]。
Nguyen等采用了不同的方法，并使用来自EHR的单词嵌入来训练CNN，该CNN可以检测和汇集局部临床基序以预测六个月后的计划外再入院，其性能优于基线方法（Deepr）[116]。
Razavian等使用一组18个常见的实验室测试来使用CNN和LSTM架构预测疾病发作，并证明了对基线回归模型的改进[117]。

然而，在我们完全评估之前，需要克服众多挑战，包括数据整合（患者人口统计学，家族史，实验室测试，基于文本的患者记录，图像分析，基因组数据）以及更好地处理具有许多功能的流式时态数据。

深度网络已被证明优于传统方法的领域：

生存分析模拟：（生存分析(Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断，研究生存时间和结局与众多影响因素间关系及其程度大小的方法）

传统方法解决生存分析模拟存在问题。
研究人员转向了深度指数族，这是一类由任何类型的指数族分布构成的潜在生成模型[121]。结果是深度生存分析模型能够克服缺失数据和异构数据类型带来的挑战，同时揭示协变量和失效时间之间的非线性关系。他们表明，与目前的临床实施相比，他们的模型更准确地将患者分层为疾病风险评分的函数。
然而，与传统的非神经网络方法相比，这些方法存在计算成本。

病人分类中的挑战和机遇

1 生成ground-truth标签是昂贵的或不可能的

缺乏真正的标签可能是使用机器学习的基于EHR的分析的最大障碍。

流行的深度学习（和其他机器学习）方法通常用于处理分类任务，因此需要用于训练的地面真实标签。
对于EHR而言，这可能意味着研究人员必须聘请多名临床医生通过称为图表审查的流程手动阅读和注释个别患者的记录。这允许研究人员分配“真实”标签，即那些符合我们最佳知识的标签。根据应用，有时算法构建的特征也需要由临床医生手动验证和解释。这可能是耗时且昂贵的[124]。
由于这些成本，这项研究的大部分内容，包括本次审查中引用的工作，都忽略了专家审查的过程。临床医生对没有专家评审的研究持怀疑态度可能会大大削弱他们对工作的热情，从而减少其影响。迄今为止，即使资源充足的大型国家财团也面临着获取足够专家验证的标签数据的挑战。例如，在eMERGE联盟和PheKB数据库[125]中，大多数具有专家验证的样本仅包含100至300名患者。即使对于简单的机器学习算法，这些数据集也非常小。对于具有许多参数的深度学习模型，挑战更大。

这个领域中迄今为止的成功方法已经回避了这一挑战：

无监督和半监督方法减少了对标记实例的需求[112]。
锚和学习框架[126]使用专家知识来识别可以推断出标签的高可信度观察。
对抗性训练策略可以减少过度拟合，如果可以使用转换来保留数据的有意义内容，同时转换不相关的特征[43]。
最后，传输功能的方法还可以帮助最有效地使用有价值的训练数据。 Rajkomar等人。在仅使用放射图像进行调谐之前，使用通用图像训练深度神经网络[57]。在使用更稀疏的生物医学示例进行微调之前，需要许多相同类型特征的数据集可用于初始训练。尽管尚未尝试进行分析，但电子健康记录可能有类似的策略。例如，从一种类型的临床测试的电子健康记录中学习的特征（例如，实验室值随时间的减少）可以跨表型转移。在其他领域中出现了用少量高质量标记数据实现更多目标的方法，并且还可以适应这种挑战，例如，数据编程[127]。在数据编程中，集成了噪声自动标记功能。

总结观点

如果深度学习将改变我们对人类健康状况进行分类的方式，我们希望对数据有限的域的改进方法发挥重要作用。
我们不希望深度学习方法取代专家评审。我们希望它们能够更有效地使用昂贵的手动注释实践来补充专家评审。

2 标准化和隐私考虑阻碍了数据共享

需求：共享大量数据。

挑战：

即使在相同的医疗保健系统中，EHR也可以以不同的方式使用[133,134]。因此，EHR数据可能不如预期的那么完整和客观。
从更广泛的角度来看，EHR的标准很多并且在不断发展。
最后，即使数据在各系统之间完全一致且兼容，分享和组合EHR数据的尝试也面临着相当大的法律和道德障碍。

目前解决方法：已经在这个方向上提出了几种技术解决方案，允许访问满足隐私和法律问题的敏感数据。

像DataShield [145]和ViPAR [146]这样的软件虽然不是特定于EHR的，但它允许通过“对数据进行分析”来查询和组合数据集以及跨远程站点计算汇总统计数据。
- 即使没有共享数据，在机密患者数据上训练的算法也可能存在安全风险或意外地允许暴露个体水平的患者数据。（ Tramer等人[148]显示了通过公共应用程序编程接口（API）窃取训练模型的能力。 Dwork和Roth [149]展示了在机器学习模型中从准确答案中揭示个人水平信息的能力。攻击者可以使用类似的攻击来查明特定数据实例是否存在于机器学习模型的原始训练集中[150]，在这种情况下，是否存在人的记录。为了防止这些攻击，Simmons等人[151]开发了以差异私密方式进行全基因组关联研究（GWAS）的能力，Abadi等[152]显示了在差异隐私框架下训练深度学习分类器的能力。）
- 这些攻击对于旨在生成数据的方法也存在潜在危险（崔等人。提出生成对抗神经网络（GAN）作为制作可共享EHR数据的工具[153]，Esteban等。 [154]表明，复发GAN可用于时间序列数据。但是，在这两种情况下，作者都没有采取措施保护模型免受此类攻击。有保护模型的方法，但它们提出了自己的挑战。以差异私密方式进行培训提供了有限保证，即无论任何一个人参与，算法的输出都将同样发生。该限制由提供隐私量化的参数确定。 Beaulieu-Jones等人。证明了在差异隐私框架下生成保留SPRAN临床试验属性的数据的能力[155]。）
差异私有GAN可能是生成用于下游再分析的可共享数据集的有吸引力的方式。
联合学习[156]和安全聚合[157]是加强差异隐私的补充方法。但在差异隐私框架内训练模型却很困难[155]。对于小样本量，这个问题尤其明显。

未来解决方向：能够在不共享原始数据的情况下对数据进行训练的技术，通常可以保证在差异隐私框架内进行训练。

3 歧视和“解释权”法律

2016年4月，欧盟通过了关于个人信息使用的新规则，即“一般数据保护条例”[159] 。这些规则的一个组成部分可以用短语“解释权”来概括。那些使用机器学习算法的人必须能够解释如何做出决定。

例如，治疗由机器学习算法辅助的患者的临床医生期待算法给出使用患者数据做出的决定的解释。

随着数据集变得越来越大，越来越复杂，我们可能会开始识别对人类健康很重要但难以理解的数据关系。
要发现并避免歧视性应用，必须考虑可解释性和准确性。基因组和医疗保健数据的许多属性将使这一点变得困难。

解决方向：研究人员需要考虑模型可以学习偏差的程度，以及模型是否可以充分解释以识别偏差。

4 深度学习在纵向研究中的应用

纵向研究是指在一段相对长的时间内对同一个或同一批被试进行重复的研究。

wiki：纵向研究（或纵向调查，或小组研究）是一种研究设计，其涉及在短期或长期内对相同变量（例如，人）的重复观察（即，使用纵向数据）。在医学中，该设计用于揭示某些疾病的预测因子。

举例：向研究使社会科学家能够区分短期和长期现象，例如贫困。如果某个时间点的贫困率为10％，这可能意味着10％的人口总是贫困，或者整个人口在10％的时间内经历贫困。一次性横断面研究不可能得出这些可能性中的哪一种为结论。

在大型患者群体中，纵向分析如弗雷明汉心脏研究[169]和雅芳家长和儿童纵向研究[170]已经产生了关于疾病发展和促进健康状况的因素的重要发现。
拉斯科等人[111]在血清尿酸测量的纵向序列上使用自动编码器来识别群体亚型。最近，深度学习显示了使用两种序列（CNN）[173]以及过去和现状（RNN，LSTM）的结合[115]的前景。