资源简介
摘要:本文件规定了新闻行业中大规模预训练模型的研发数据要求,包括数据来源、质量控制、标注规范、隐私保护及技术评估等内容。本文件适用于从事新闻行业相关的大规模预训练模型开发、应用和评估的机构和个人。
Title:News Industry - Research and Development Data Requirements for Large-scale Pre-trained Models
中国标准分类号:L70
国际标准分类号:35.240
封面预览
拓展解读
在TCAPT 012-2024《新闻行业大规模预训练模型研发数据要求》中,有一项重要的更新是关于“敏感信息脱敏处理”的具体规范。相较于旧版标准,新版更加细化了对新闻数据中敏感信息的定义以及脱敏操作的具体要求。本文将围绕这一变化展开详细解读。
首先,新版标准明确了敏感信息包括但不限于个人隐私、商业机密、国家安全相关的信息。例如,在新闻报道中涉及的人物姓名、身份证号、电话号码等个人信息,都属于需要进行脱敏处理的内容。这与旧版相比,增加了对于企业内部敏感资料如财务报表、客户名单等内容的保护要求。
其次,在脱敏方式上,新版提出了更为严格的标准。除了传统的加密技术外,还鼓励采用差分隐私技术和生成对抗网络(GAN)来生成模拟数据用于训练模型。这样做不仅可以有效防止真实数据泄露,还能提高模型鲁棒性。此外,对于无法完全脱敏但仍需使用的特殊场景,则要求建立严格的访问控制机制,并记录所有访问日志以备审计。
最后,新版特别强调了整个过程中的透明度管理。这意味着不仅要在技术层面确保数据安全,还需向公众说明数据处理流程及其目的,接受社会监督。例如,当某篇新闻使用了经过脱敏处理后的用户评论时,应当注明该评论已过处理,从而保障读者知情权。
总之,《新闻行业大规模预训练模型研发数据要求》通过细化敏感信息分类、强化脱敏手段及提升透明度等措施,进一步完善了新闻行业在利用大数据资源开展人工智能研究时的数据安全保障体系。这对于促进技术创新同时维护公共利益具有重要意义。