资源简介
摘要:本文件规定了中医药真实世界研究中数据库的构建原则、方法及数据预处理的技术要求和流程。本文件适用于中医药领域开展真实世界研究时的数据库设计、实施与管理。
Title:Technical Specification for Real-World Research in Traditional Chinese Medicine - Database Construction and Data Preprocessing
中国标准分类号:C44
国际标准分类号:11.020
封面预览
拓展解读
中医药真实世界研究中数据库构建与数据预处理是确保研究科学性和可靠性的关键环节。在TCACM 1371.1-2021《中医药真实世界研究技术规范 第1部分:数据库的构建和数据预处理》中,有一项重要的变化值得深入探讨,即关于“数据清洗标准”的细化。
以“数据清洗标准”为例,在旧版标准中,对于数据清洗的要求较为笼统,仅提出需要对缺失值、异常值等进行处理,但并未给出具体的操作指南。而在新版标准中,这一部分得到了显著加强,明确了数据清洗的具体流程和技术细节。
例如,在处理缺失值时,新版标准指出应根据数据类型采用不同的策略。对于定量数据,如果缺失比例低于5%,可以考虑使用均值填补法;若超过5%,则需结合领域知识选择合适的插补模型。而对于定性数据,则推荐使用众数填补或者基于相似病例的预测方法。此外,还特别强调了在实施任何填补操作前,必须评估缺失机制是否为随机缺失(MCAR)、非随机缺失(NMAR)或缺失完全随机(MAR),以便选择最恰当的处理方式。
另外,在异常值检测方面,新版标准引入了多维度分析的概念。它要求不仅要通过统计学方法如箱线图来识别极端值,还要结合临床背景考量其合理性。当发现异常值后,不应立即剔除,而是先调查原因,比如可能是录入错误或是罕见但真实的生理现象。只有确认为错误的情况下才可删除,并记录下决策过程以保证透明度和可追溯性。
这些改进不仅提高了实际操作中的指导意义,也使得整个数据预处理过程更加规范化和系统化,从而有助于提高最终研究成果的质量与可信度。因此,在进行中医药真实世界研究时,遵循新版标准所提供的详尽指引至关重要。