本文 2019 年 2 月 11 日发表在 Nature 子刊 Medicine ,是全球顶级医学杂志首次发表通过自然语言处理(NLP)技术处理中文文本型电子病历(EHR)进行临床诊断的论文。

Paper: Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence

1 Abstract

基于人工智能(AI)的方法已成为改变医疗保健的有力工具。尽管机器学习分类器(MLC)已经在基于图像的诊断中表现出强大的性能,但对各种大规模电子健康记录(EHR)数据的分析仍然是具有挑战性的。在这里,我们表明MLC可以以类似于医生使用的假设 - 演绎推理的方式查询 EHRs,这是以前的统计方法没有发现的。我们的模型应用自动的自然语言处理系统,使用深​​度学习技术从 EHRs 中提取临床相关信息。本研究共分析了来自主要转诊中心的 1,362,559 名儿科患者就诊的 1.016 亿个数据点,以训练和验证该框架。我们的模型显示了多个器官系统的高诊断准确性,并且在诊断常见的儿童疾病方面可与经验丰富的儿科医生相媲美。我们的研究为实现一个帮助医生处理大量数据,增强诊断评估以及在诊断不确定性或复杂性的情况下提供临床决策支持的基于 AI 的系统提供了概念证明。虽然这种影响在医疗服务商相对短缺的地区可能最为明显,但这种人工智能系统的好处可能是普遍的。

2 总体框架

医生通常采用假设演绎推理对病人进行诊断,不需要处理整个特征集,仅使用一些特征就能达到具有可接受确定性水平的诊断,因此,医生可以被认为是某种分类器。

这篇文章提出的总体框架是两阶段的,即:

  • 首先,使用 NLP 信息提取模型从 EHRs 中自动提取临床数据的概念和特征;
  • 随后,基于上一步得到的特征,使用逻辑回归分类器基于解剖学(器官系统)进行诊断分类。

2.1 NLP 信息提取模型

  • 目的:提取 EHR 原始数据中的关键概念和相关类别,并将其转换为查询-答案对重新格式化的临床数据
  • 数据集:具有 25 年以上临床实践经验的高级主治医师手工标注的共 6183 份 EHR 笔记,3564 张用于训练,2619 张用于验证。
  • NLP框架
    • 词典构建:由人类医生选择文本中临床相关单词,构建了词汇表
    • 符号化和词嵌入:word2Vec
    • 模式设计:使用基于 attention 的双向 LTSM ,输出“问题-答案”查询对
  • 性能
    • 在所有类别的临床数据(除一个实验室测试的实例外),F1 值均高于 90%,实现高召回率和和高精度的信息提取。
    • 在体检达到最高召回率(分类变量95.62%,自有文本99.08%),在实验室检测达到最低召回率(分类变量72.26%,自有文本88.26%);在主诉达到最高精度(分类变量97.66%,自有文本98.71%),实验室检测达到最低精度(分类变量93.78%,自有文本96.67%)。

2.2 分级诊断系统

  • 使用逻辑回归分类器
  • 分层诊断:为模仿医生推理,使用基于解剖划分(如器官系统)的框架进行诊断
  • 评估每个患者记录的提取特征,先将疾病划分划分为广泛的器官,之后逐层深入划分成器官子系统或更具体的诊断组
  • 预测诊断具有较高准确率,以部分疾病为例:神经系统的准确性为0.98,呼吸系统的准确性为0.92,全身性疾病的准确性为0.87,最低的消化系统的准确性为0.85。
  • 和人类专家进行比较,预测诊断和人类医生诊断之间存在高度关联,F1评分高于两个初级医生组,但低于三个高级医生组。

3 其他工作

这篇文章还做了一些其他工作,例如通过显示模型进行诊断所依赖的特征,增加了可解释性。

4 意义

文章认为,这种人工智能框架存在普遍的实用意义:

  1. 智能导诊:该框架可能有助于简化患者护理程序,有助于确保医生将时间用于有最迫切需要的患者。
  2. 辅助问诊:该框架可以成为医生的辅助诊断工具,对具有不确定性或复杂性的诊断提供帮助,减少诊断偏见。