资源简介
摘要:本文件规定了肺癌免疫治疗人工智能辅助决策软件算法性能的测试方法,包括测试指标、数据集要求、评估流程和技术规范。本文件适用于肺癌免疫治疗领域中人工智能辅助决策软件的开发、验证和性能评估。
Title:Lung Cancer Immunotherapy AI-assisted Decision-making Software Algorithm Performance Testing Method
中国标准分类号:R44
国际标准分类号:11.040
封面预览
拓展解读
在解读TSCGS 313011-2024《肺癌免疫治疗人工智能辅助决策软件算法性能测试方法》时,我们发现其中关于“数据集质量评估”的要求较旧版有显著改进。新版标准中新增了对数据集标注一致性评价的具体指标,这对于确保AI模型训练数据的质量至关重要。
根据新标准,数据集标注一致性需从以下三个维度进行量化评估:标注重复性、标注偏差度和标注覆盖度。首先,标注重复性通过计算同一标注者多次标注结果间的相似度来衡量;其次,标注偏差度使用统计学方法分析不同标注者之间的一致性水平;最后,标注覆盖度则考察标注内容是否全面涵盖了所有可能的临床场景。
以某肺癌免疫治疗AI辅助决策系统为例,其开发团队在进行算法性能测试时,应按照上述标准建立独立的数据集审核小组。该小组需对原始数据进行三轮交叉标注,并利用Krippendorff's Alpha系数来评估标注重复性和偏差度。同时,还需构建一个包含罕见病例的小型补充数据集,以验证标注覆盖度是否足够。
这一系列操作不仅有助于提高AI模型训练数据的整体质量,还能有效降低因数据不一致导致的模型泛化能力下降风险,从而提升最终产品的临床应用价值。