《环境与职业医学》杂志官方网站 《环境与职业医学》杂志官方网站

首页> 过刊浏览> 正文

2020, 37(6):523-529.doi:10.13213/j.cnki.jeom.2020.20113

尘肺病数据标注规范与质量控制专家共识(2020年版)


收稿日期: 2020-03-16;  录用日期:2020-04-29;  发布日期: 2020-07-09

作者简介:

利益冲突  无申报

尘肺病是由于在职业活动中长期吸入生产性粉尘并在肺内潴留而引起的以肺组织弥漫性纤维化为主的全身性疾病。我国是全球尘肺病病人数最多的国家,也是年报告新发病例最多的国家。因此,加强尘肺病的预防治理工作刻不容缓。将人工智能应用于尘肺病筛检和诊断,可有效提高职业病诊断读片效率,降低人工阅片误差,有效进行质量控制。研制高性能人工智能尘肺病数字化成像技术(DR)阅片系统(国家药品监督管理局第三类医疗器械人工智能辅助诊断分类)的技术关键是建立明确的尘肺病人工智能诊断标准,其中技术基础框架的关键支撑是数据集管理与标注的质量控制。通过研究、定义尘肺病DR胸片及相关信息的数据采集内容、筛选标准、处理流程,形成数据标注的思路、方法,并辅以相应内容和过程的质量控制来为尘肺病人工智能产品(模型)标准打好基础,以期形成严格、合理、符合医学规律、技术上可达、具有行业普遍适用性的产品技术标准规范。为此中国生物医学工程学会医学人工智能分会胸部影像及职业病标准组组织国内公共卫生、职业医学与职业病、呼吸系统疾病以及医学影像等各方面专家,就如何开展尘肺病胸部DR数据标注与质量控制进行了专门的研究和深入的讨论,各方专家就尘肺病DR胸片数据的采集、筛选、质量控制、标注内容、标注方法、标注规则、标注流程以及质量判定达成了共识。

关键词: 尘肺病;  人工智能;  数据集;  标注;  质量控制;  标准规范;  专家共识 

1   前言

我国拥有劳动人口7亿多人,其中接触各类职业病危害因素的劳动者2亿多人,劳动者在工作场所中接触职业病危害因素会罹患职业病。尘肺病指劳动者在职业活动中接触生产性矿物性粉尘所致的以弥漫性肺间质纤维化为基本病理改变的职业性肺部疾病[1],是我国最主要及危害最严重的职业病,同时我国也是世界上尘肺病人数最多和年报告新发病例最多的国家。据卫生部门统计,截至2017年全国累计发生职业病病例95万余例,其中职业性尘肺病85万余例(占比近90%)[2],而且每年仍有2.5~3.0万的新病例发生。考虑到实际工作中粉尘作业工人职业健康检查率低,尘肺病发病潜伏期长、隐匿性强等特点,实际罹患尘肺病的人数可能远远超过报告数。尘肺病给患者及其家庭带来了巨大的痛苦,也给经济发展和社会稳定带来了巨大隐患,已经成为广受关注的社会问题。

根据《中华人民共和国职业病防治法》,接触粉尘的作业人员应按照GBZ 188—2014《职业健康监护技术规范》[3]和《职业健康检查管理办法》的相关规定接受上岗前、在岗期间和离岗时的职业健康检查,旨在及时发现尘肺病例和疑似尘肺病例,早期开展医学干预,保护劳动者健康。目前我国职业健康检查机构较少,难以做到职业人群健康检查的全覆盖。另外,在一些基层职业健康检查机构、职业病诊断机构,职业病诊断医师在粉尘作业工人职业健康检查胸片筛查时存在阅片速度慢、误差大的问题,即使是级别较高的检查机构也存在阅片稳定性与准确性不高的问题,受到这些因素的影响,尘肺病诊断时容易出现漏诊和误诊现象。这些问题的存在降低了粉尘作业人员职业健康检查的质量,减弱了职业健康检查对尘肺病早期发现、早期诊断与早期治疗的预防作用,同时也难以满足职业健康检查大数据处理应用的需要。

在国家政策的支持和鼓励下,我国人工智能(artificial intelligence,AI)产业发展迅猛。将AI应用于尘肺病筛检和诊断,可有效提高职业病诊断读片效率,降低人工阅片误差,有效进行质量控制。研制高性能AI尘肺病数字化成像技术(digital radiography,DR)阅片系统(国家药品监督管理局第三类医疗器械人工智能辅助诊断分类)的技术关键是对尘肺病DR胸片进行数据标注并形成数据集,为此中国生物医学工程学会医学人工智能分会成立胸部影像及职业病标准组,组织国内公共卫生、职业医学与职业病、呼吸系统疾病以及医学影像学专家,就如何开展尘肺病胸部DR数据标注与质量控制做了大量工作,在尘肺病DR胸片数据的标注内容、标注方法、标注规则、标注流程以及质量控制等方面积累了可行的经验。

在上述工作的基础上,为了进一步做好AI尘肺病筛检诊断产品的开发工作,经专家讨论,对尘肺病胸部DR影像数据标注及其质量控制提出指导意见并形成专家共识。本共识旨在提供在构建尘肺病胸部DR影像学特征标注(以下简称为“标注”)标准数据集过程中专家一致的认识和规范的标注法,共享AI专用医学影像数据标注规则与方法,鼓励有序开发医学数据资源,促进医疗AI产业全链条协调发展。共识标注的结果可用于训练AI尘肺病DR胸片筛检技能,也可用于训练AI尘肺病DR胸片诊断技能并评价AI尘肺病DR胸片筛查产品的性能。本共识将会跟随产品技术升级和临床实践演化而逐步更新。

2   术语与定义

下列术语和定义适用于本共识。

2.1   AI尘肺病筛查

根据符合职业性尘肺病国家标准拍摄的DR[胸片质量三级以上,胸片标准请参考《附录A(规范性附录)胸片质量与质量评定》(www.jeom.org/article/ cn/10.13213/j.cnki.jeom.2020.20113)],AI尘肺病筛查模型可判断是否有尘肺病,可应用于大规模的体检筛查和医生诊断的交叉验证。

2.2   数据脱敏

指对采集到的原始医学成像及通信(Dicom)数据中的个人可识别信息(包括姓名、身份证号、患者编号、地址等)等敏感信息按照脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。

2.3   数据清洗

指对采集到的原始数据进行重新审查和校验,目的在于删除重复信息,纠正存在的错误,并提高数据一致性。

2.4   基础数据库

脱敏数据由临床机构转移至生产企业,经预处理、清洗后形成基础数据库。

2.5   标注数据库

基础数据库中的数据经过有资质的标注人员标注后进入标注数据库。

2.6   训练集

基于标注数据库构建训练集,用于算法训练,建立模型。

2.7   测试集

基于标注数据库构建测试集,用于算法模型的性能评估。

2.8   标注

由通过审核的标注人员对DR胸片的胸片质量、影像学特征、尘肺病种类和分期标注的过程和结果统称为标注。

3   尘肺病影像学特征及分期诊断

本部分内容参考GBZ 70—2015《职业性尘肺病的诊断》[4]的相关内容,并与其保持一致。

3.1   影像学特征

尘肺病基本影像学特征包括小阴影(圆形小阴影和不规则小阴影)、小阴影聚集、大阴影、胸膜斑四种。

3.1.1   小阴影

在X射线胸片上,肺野内直径或宽度不超过10 mm的阴影,按其形态又分为圆形和不规则形两类。

3.1.1.1   圆形小阴影

在X射线胸片上大致呈圆形或椭圆形的小阴影,按其直径大小分为三种,分别以英文字母p、q、r代表。p:直径最大不超过1.5 mm;q:直径大于1.5 mm,不超过3 mm;r:直径大于3 mm,不超过10mm。

3.1.1.2   不规则小阴影

在X射线胸片上一般呈长短不一、粗细不一、走向不一的线条状阴影,按其宽径的大小分为三种,分别以英文字母s、t、u表示。s:宽度最大不超过1.5mm;t:宽度大于1.5mm,不超过3mm;u:宽度大于3mm,不超过10mm。

3.1.2   小阴影聚集

在X射线胸片上,肺野内出现局部小阴影明显增多、聚集成簇的状态,但尚未形成大阴影,一般多在肺野上部,是由圆形小阴影聚集所形成。

3.1.3   大阴影

在X射线胸片上,肺野内直径或宽度大于10 mm的阴影。大阴影可以单发,也可以多发,多是在圆形小阴影聚集的基础上发展而成,以肺野上中部多见。

3.1.4   胸膜斑

在X射线胸片上,肺野内除肺尖部和肋膈角以外出现的厚度大于5 mm的局限性胸膜增厚或局限性钙化胸膜斑块。一般由于长期接触石棉粉尘而引起。

3.2   小阴影形态、密集度、分布范围的判定及附加符号

3.2.1   小阴影形态的判定

小阴影形态的判定应以GBZ 70—2015[4]为依据,主要是对照6种不同形态小阴影的6张组合片。阅读胸片时应记录小阴影的形态和大小。胸片上的小阴影几乎全部为同一形态和大小时,将其字母符号分别写在斜线的上面和下面,例如:p/p、s/s等;胸片上出现两种以上形态和大小的小阴影时,将代表主要形态和大小的小阴影字母符号写在斜线上面,次要且有相当数量的另一种小阴影字母符号写在斜线下面,例如:p/q、s/p、q/t等。

3.2.2   小阴影密集度

3.2.2.1   小阴影密集度的定义

小阴影密集度是指一定范围内小阴影的数量,按照由少到多分为四大级十二小级。(1)四大级分级。0级:无小阴影或甚少,不足1级的下限;1级:有一定数量的小阴影;2级:有多数量的小阴影;3级:有很多数量的小阴影。(2)十二小级分级。小阴影密集度是一个连续的由少到多的渐变过程,为客观地反映这种改变,在四大级的基础上再把每级划分为三小级,即0/-、0/0、0/1为0级;1/0、1/1、1/2为1级;2/1、2/2、2/3为2级;3/2、3/3、3/+为3级,目的在于提供更多的信息,更细致地反映病变情况。密集度分级如图 1所示。

图 1

小阴影密集度分级

Figure1.

Small opacity intensity grade

3.2.2.2   小阴影密集度的判定

应以GBZ 70—2015[4]为依据,主要是对照相应形态的小阴影的组合片。(1)肺区定义。在X射线胸片上,将肺尖至膈顶的垂直距离三等分,用等分点的水平线将左右肺野各分为上、中、下三个肺区,左右共6个肺区。(2)肺区密集度判定。在小阴影形态判定的基础上,对照相应形态的密集度组合标准片判定各肺区小阴影密集度,以十二小级分级表示。若小阴影密集度与标准片基本相同,可分别记录为1/1、2/2、3/3。若小阴影密集度与标准片比较,认为较低一级或较高一级也应同时记录下来,例如2/1或2/3,前者含义是密集度属2级,但1级也要考虑;后者含义是密集度属2级,但3级也要考虑。判定肺区密集度的原则是小阴影分布范围至少占该区面积的三分之二。(3)全肺总体密集度和肺区数的判定。总体密集度是指全肺内密集度最高肺区的密集度,是在对小阴影密集度分肺区判定的基础上对全肺小阴影密集度的一个总体判定,以四大级分级表示。

3.2.3   分布范围判定

小阴影分布范围是指出现有密集度1级(1/0)及以上小阴影的肺区数。

3.2.4   附加符号

bu:肺大泡;ca:肺癌或胸膜间皮瘤;cn:小阴影钙化;cp:肺心病;cv:空洞;ef:胸腔积液;em:肺气肿;es:淋巴结蛋壳样钙化;ho:蜂窝肺;pc:胸膜钙化;pt:胸膜增厚;px:气胸;rp:类风湿性尘肺;tb:活动性肺结核。

3.3   尘肺病分期诊断

尘肺病根据DR胸片的影像特征,按GBZ 70— 2015[4]分为壹期、贰期、叁期,具体判定方法如下。

(1)尘肺壹期。有下列表现之一者:a)有总体密集度1级的小阴影,分布范围至少达到2个肺区;b)接触石棉粉尘,有总体密集度1级的小阴影,分布范围只有1个肺区,同时出现胸膜斑;c)接触石棉粉尘,小阴影总体密集度为0级,但至少有两个肺区小阴影密集度为0/1,同时出现胸膜斑。见图 2

图 2

尘肺壹期示例

Figure2.

Example of stage-one pneumoconiosis

(2)尘肺贰期。有下列表现之一者:a)有总体密集度2级的小阴影,分布范围超过4个肺区;b)有总体密集度3级的小阴影,分布范围达到4个肺区;c)接触石棉粉尘,有总体密集度1级的小阴影,分布范围超过4个肺区,同时出现胸膜斑并已累及部分心缘或膈面;d)接触石棉粉尘,有总体密集度为2级的小阴影,分布范围达到4个肺区,同时出现胸膜斑并已累及部分心缘或膈面。见图 3

图 3

尘肺贰期示例

Figure3.

Example of stage-two pneumoconiosis

(3)尘肺叁期。有下列表现之一者:a)有大阴影出现,其长径不小于20 mm,短径大于10 mm;b)有总体密集度3级的小阴影,分布范围超过4个肺区并有小阴影聚集;c)有总体密集度3级的小阴影,分布范围超过4个肺区并有大阴影;d)接触石棉粉尘,有总体密集度为3级的小阴影,分布范围超过4个肺区,单个或两侧多个胸膜斑长度之和超过单侧胸壁长度的二分之一或累及心缘使其部分显示蓬乱。见图 4

图 4

尘肺叁期示例

Figure4.

Example of stage-three pneumoconiosis

4   数据适用范围

根据我国临床需求和处于注册申报阶段的产品技术现状[5],数据集使用的影像包含体检筛查、门诊等不同场合获取的人体图像,使用的设备、设置、剂量能够代表不同地区及不同条件的实际水平。基于这些数据研发的AI产品可用于尘肺病筛查或分期诊断,也可用于其他肺部异常的筛查。

5   数据要求

5.1   伦理批准与患者隐私保护

尘肺病影像数据集使用的数据必须是获得医疗机构批准或者豁免的临床脱敏数据,并与数据提供单位签订使用协议,患者的隐私保护应当满足法律法规的要求。从志愿者、体检中心、医疗机构、科研项目等途径收集的数据同样应当由相应机构进行审查和批准,保证数据脱敏、患者隐私安全和患者利益。

5.2   数据质量要求

数据集应当使用标准Dicom格式的原始数据,除对敏感信息进行脱敏外,不得进行任何修改、编辑,不得进行有损压缩。胸片质量以《附录A(规范性附录)胸片质量与质量评定》(www.jeom.org/article/ cn/10.13213/j.cnki.jeom.2020.20113)的要求为准,所有数据应为胸片质量三级(包含)以上的DR胸片。

5.3   数据多样性要求

为保证数据集具有充分的代表性,控制偏倚,数据应当尽可能覆盖更多具有通用性的统计维度并给出统计描述,才能更科学地对模型效果进行评估。这些维度如下。(1)数据来源:由于尘肺病发病的地域性范围比较广,而且由于厂商、设备型号、参数以及操作人员的习惯等不同,导致不同地区或医院的数据存在差异,为避免因上述因素引起的模型泛化能力差,建议数据至少覆盖10个不同省市的10家不同医疗机构或职业健康检查机构,每家医院样本比例不少于5%,建议数据尽可能覆盖不同的设备厂商。所采集的数据主要以接尘人群为主,同时建议包含少量非接尘人群。(2)尘肺病类型:建议包括国家《职业病分类和目录》中的12种尘肺病(矽肺、煤工尘肺、石墨尘肺、炭黑尘肺、石棉肺、滑石尘肺、水泥尘肺、云母尘肺、陶工尘肺、铝尘肺、电焊工尘肺、铸工尘肺),并以不同尘肺病例的多少决定其在数据集中的占比。数据集以矽肺和煤工尘肺为主,煤工尘肺+矽肺至少占85%,石棉肺至少占5%,并尽量覆盖全部12种尘肺病类型。(3)病情程度:为保障AI产品对尘肺病筛查和分期诊断的泛化能力,建议壹期病例数至少20%、贰期病例数至少10%、叁期病例数至少5%,阳性样本的比例在35%~50%之间。(4)其他肺部疾病:为提高AI鉴别诊断的准确率,建议数据集中包括一定比例的肺结核、肺部肿瘤、结节病、寻常型间质性肺炎、慢性阻塞性肺疾病等病例,数据可来自接尘人群或不接尘人群。

5.4   数据量要求

AI产品的质量取决于其学习的深度和广度,因此数据必须具备一定的数量。经过多家机构近三年的AI胸部DR尘肺病产品的研发试验,发现训练集数据多于10 000张时,训练出的模型更稳定,性能更好,更能满足实际应用的需要,因此建议研发过程中的数据集满足以下要求。(1)标注数据库:至少12 000张高质量(三级或以上)DR胸片的标注图像;(2)训练集:至少10 000张高质量(三级或以上)的标注图像,阳性样本的比例在35%~50%之间;(3)测试集:占整个数据集的10%~30%,测试集的数据分布和训练集相同。

6   标注规范

6.1   流程设计与质控

6.1.1   标注医师

标注医师的选择应按照下述流程并满足以下要求。(1)技术职称:具有主治医师(含)以上技术职称,取得尘肺病诊断医师资格;(2)工作经验:尘肺病诊疗领域15年以上尘肺病阅片经验;(3)选择标准一致性率在90%以上的医师作为标注医师标注医师选择流程参考图 5

图 5

标注医师选择流程

Figure5.

Flow of selection of labeling physicians

[注] P:一致性率;i:标注医师编号;l:标注结果;sl:标准结果;k:标注影像编号;m:一致率迭代轮次;n:DR胸片数量。 [Note] P: Consistency rate; i: No. of labeling physicians; l: Labeling result; sl: Standard result; k: No. of labeling images; m: No. of consistency rate iteration; n: DR chest radiograph quantity.

6.1.2   标注内容及一致性评定流程

为提高标注的准确性和敏感度,降低假阳性率,避免记忆偏倚,标注流程建议多轮次分组交叉进行。

6.1.2.1   标注内容和流程

为保障标注的准确性及规范性,重点的标注内容必须包括全部尘肺病DR胸片参数:胸片质量、小阴影形态、肺区小阴影密集度、病变范围(肺区数)、总体密集度、小阴影聚集、大阴影、胸膜斑、心影蓬乱、非尘肺阳性、尘肺分期和附加符号。各参数的具体定义及判定方法请参考“3.1”、“3.2”。标注流程见图 6

图 6

标注工作流程

Figure6.

Flow of labeling

6.1.2.2   尘肺病标注一致性流程

尘肺病标注一致性评定工作流程见图 7

图 7

尘肺病标注一致性评定工作流程

Figure7.

Flow of consistency assessment of pneumoconiosis labeling

6.2   尘肺病图像数据标注规则

6.2.1   标注参数

标注过程中需进行标注的参数及标准见表 1

表1

标注过程中需进行标注的参数及标注规则、标注符号

Table1.

Labeling parameters, relevant standards, and symbols

6.2.2   读片要求

标注时建议使用分辨率≥ 300万的医学专用灰阶屏。标注时建议遵循以下要求:(1)读片时一般取坐位,显示器一般置于读片者眼前25 cm(利于观察小阴影)至50cm(利于观察全胸片)处。(2)读片时应全程参考标准片。(3)标注软件以1: 1比例显示DR胸片,可根据胸片情况和个人习惯调节对比度,按标准片的要求进行读片。(4)读片室内应保持安静,读片速度根据个人习惯而定,但应在每1~1.5h休息一次,以使读片者视力和脑力能保持良好的分辨能力。

专家组成员

中国疾病预防控制中心:李涛、李德鸿;清华大学医学院:王广志;中国医学科学院北京协和医学院:杨国忠;国家药品监督管理局中国食品药品检定研究院:王晨希;中关村海淀园管委会产业规划发展处:李楠;应急总医院:曾庆玉、李宝平;浙江省医学科学院:张幸;国家卫生健康委职业安全卫生研究中心:张建芳;北京大学第三附属医院:李树强;国家卫生健康委职业安全卫生研究中心、石龙医院:钱青俊;黑龙江省第二医院、黑龙江省职业病防治院:刘锡诚;广州市第十二人民医院:刘移民;北京市职业病防治研究院:王建国;中日友好医院:代华平;中国疾病预防控制中心职业卫生与中毒控制所:王焕强;上海市肺科医院:毛翎;首都医科大学附属北京朝阳医院:蒋涛;山东省职业卫生与职业病防治研究院:崔萍;浙江省医学科学院职业卫生所:陈钧强;北京医院:潘继戍;北京市疾病预防控制中心:唐德环;湖南省职业病防治院:李颖、肖友立;重庆市第六人民医院、重庆市职业病防治院:金盛辉;江苏省疾病预防控制中心职业卫生所:丁帮梅;安徽科大讯飞医疗信息技术有限公司:陶晓东;联影智能医疗科技(北京)有限公司:詹翊强;中国生物医学工程学会医学人工智能分会胸部影像及职业病标准组:徐明、颜子夜

图 1

小阴影密集度分级

Figure 1

Small opacity intensity grade

图 2

尘肺壹期示例

Figure 2

Example of stage-one pneumoconiosis

图 3

尘肺贰期示例

Figure 3

Example of stage-two pneumoconiosis

图 4

尘肺叁期示例

Figure 4

Example of stage-three pneumoconiosis

图 5

标注医师选择流程

Figure 5

Flow of selection of labeling physicians

[注] P:一致性率;i:标注医师编号;l:标注结果;sl:标准结果;k:标注影像编号;m:一致率迭代轮次;n:DR胸片数量。 [Note] P: Consistency rate; i: No. of labeling physicians; l: Labeling result; sl: Standard result; k: No. of labeling images; m: No. of consistency rate iteration; n: DR chest radiograph quantity.
图 6

标注工作流程

Figure 6

Flow of labeling

图 7

尘肺病标注一致性评定工作流程

Figure 7

Flow of consistency assessment of pneumoconiosis labeling

表1

标注过程中需进行标注的参数及标注规则、标注符号

Table 1

Labeling parameters, relevant standards, and symbols

参考文献

[1]

朱秋鸿, 王焕强, 余晨, 等.尘肺病影像学诊断技术研究进展[J].环境与职业医学, 2011, 28(10):627-630.

[2]

中华预防医学会劳动卫生与职业病分会职业性肺部疾病学组.尘肺病治疗中国专家共识(2018年版)[J].环境与职业医学, 2018, 35(8):677-689.

[3]

职业健康监护技术规范: GBZ 188-2014[S].北京: 中国标准出版社, 2014.

[4]

职业性尘肺病的诊断: GBZ 70-2015[S].北京: 中国标准出版社, 2016.

[5]

国家药品监督管理局医疗器械技术审评中心.关于发布深度学习辅助决策医疗器械软件审评要点的通告[EB/OL].[2020-03-07]. https://www.cmde.org.cn/CL0050/19360.html.

1 20113 附录A(规范性附录) 胸片质量与质量评定.doc 下载
上一张 下一张
上一张 下一张

[作者简介]

[收稿日期] 2020-03-16

【点击复制中文】
【点击复制英文】
计量
  • PDF下载量 (101)
  • 文章访问量 (273)
  • XML下载量 (2)
  • 被引次数 (0)

目录

尘肺病数据标注规范与质量控制专家共识(2020年版)

导出文件

格式

内容

导出 关闭
《环境与职业医学》杂志官方网站