博士课堂

博士课堂

“新手”秒变“老法医”?AI模型SongCi让尸检报告更准、更快---中国首个法医病理AI基础模型诞生

2025-11-01

image.png

英文标题

Large-vocabulary forensic pathological analyses via prototypical cross-modal contrastive learning

image.png

中文标题

基于原型跨模态对比学习的大词汇量法医病理分析

关键词

法医病理学、计算病理学、视觉语言模型(VLM)、自监督学习、跨模态融合、SongCi模型


研究背景

  • 法医病理学是确定死因与死亡方式的关键环节,但传统尸检高度依赖经验、主观性强,且劳动密集、专家短缺。

  • 近年来人工智能(AI)在临床病理学(如癌症诊断)中取得突破,但直接迁移到法医领域存在困难:

    • 法医样本差异大(多器官、非肿瘤、尸体现象复杂);

    • 缺乏足够的标注数据;

    • 任务维度更广(死亡方式、损伤类型、尸体现象等)。

  • 因此,作者提出了专为法医病理学设计的多模态模型——SongCi(取名自南宋法医学家宋慈)。


研究目的

构建一个能同时理解图像与文字描述、可执行开放词汇量法医诊断任务的AI模型,通过自监督学习方式让模型从海量未标注尸检图像和描述中学习特征,实现跨机构、跨器官的泛化分析。


方法概述

模型结构:

  1. 原型级图像编码器

    • 将超高分辨率尸检切片(WSI)划分为图像块;

    • 通过对比学习提取跨器官共享器官特异的原型特征;

    • 学到 933 个原型表示,用于捕捉典型尸体现象(如自溶、出血、纤维化等)。

  2. 语言编码器(基于PLIP模型)

    • 负责理解肉眼观察描述(gross key findings)和诊断结果文本。
  3. 跨模态融合模块

    • 引入门控注意力机制(gated attention)

    • 将图像特征与文字描述融合;

    • 实现零样本诊断预测(zero-shot inference)。

    • image.png


数据集

  • 来源:三个法医学司法鉴定中心(西安交通大学、陕西中金司法鉴定中心、上海司法鉴定科学研究院);

  • 含 2228 对 WSI-文字配对样本

  • 覆盖 9 个器官(脑、心、肺、肝、肾、胰腺、脾、肾上腺、胃肠道);

  • 包含 471 种诊断结果

  • 约 1600 万张高分辨率图像块


主要结果

  1. 视觉特征学习与原型空间可视化

    • 通过UMAP降维展示,SongCi能自动区分不同器官特征;

    • 原型中既有特异性模式(如心肌肥厚、脑水肿),也有跨器官共享模式(如自溶、炎症、出血)。

      image.png
  2. 自监督图像生成与分割

    • 使用条件扩散模型验证特征质量;

    • SongCi能生成逼真的尸检组织图像;

    • 在未标注条件下完成高质量组织分割,精度明显优于H2T与PANTHER聚类方法。

      image.png
  3. 大词汇量诊断性能

    • 与六个最先进的视觉语言模型(IRENE、GIT、MCAT等)相比,SongCi在内部与外部数据集上召回率、精确度、IOU均领先10–20%

    • 在罕见诊断(low-frequency)与偏移任务(off-set)中表现尤为突出;

    • 具备强大的零样本学习能力

      image.png

  4. 与法医专家对比

    • 在100例外部验证样本中,SongCi的诊断准确度与高级法医(15年以上经验)相当;

    • 用时仅 0.37 小时 vs 专家 7 小时

    • 明显优于初级法医与法医助理。

      image.png
  5. 可解释性分析

    • SongCi能自动标注图像中关键病理区域与文字描述对应的关键词;

    • 实现图像—文字双向可视化解释,辅助法医理解模型决策逻辑。

  6. 消融实验

    • PLIP语言模型优于其他医学语言模型;

    • 原型对比学习显著提升模型泛化性;

    • 门控注意力与噪声嵌入提高鲁棒性;

    • DeiT视觉主干结构表现最佳。


讨论与意义

  • SongCi 填补了法医病理学缺乏AI基础模型的空白;

  • 模型在解释性、可移植性和效率方面均达到实用水平;

  • 具备跨机构、跨器官的强泛化能力;

  • 同时可迁移到临床病理数据(如癌症诊断),在TCGA与CAMELYON数据集上表现良好。


文章亮点

  • 首个面向法医病理学的大规模视觉语言模型;

  • 融合宏观与显微层面信息,能自动识别、解释病理特征;

  • 模型性能达到高级法医专家水平;

  • 数据规模空前,方法具备推广性;

  • 命名“SongCi”体现文化传承与学科精神。

    原文链接:Shen, C., Lian, C., Zhang, W. et al. Large-vocabulary forensic pathological analyses via prototypical cross-modal contrastive learning. Nat Commun 16, 6773 (2025). https://doi.org/10.1038/s41467-025-62060-x