资源简介
摘要:本文件规定了新闻行业中使用的大规模预训练语言模型的安全性要求,包括数据安全、内容安全、算法安全及伦理规范等方面的技术要求和管理措施。本文件适用于新闻行业在开发、部署和使用大规模预训练语言模型时的安全保障工作。
Title:Safety Requirements for Large-scale Pre-trained Language Models in News Industry
中国标准分类号:
国际标准分类号:
封面预览
拓展解读
今天我来谈谈《TCAPT 014-2024 新闻行业大规模预训练模型语言模型安全性要求》中关于“数据来源透明度”这一条目的变化及其应用方法。
在旧版标准(假设为TCAPT 013)中,对数据来源透明度的要求较为笼统,仅提出需要记录和保存数据来源信息。而在新版标准TCAPT 014中,这项要求被细化为三个具体维度:数据采集流程、数据标注过程以及数据使用范围,并且新增了对于敏感数据处理的具体指导。
以“数据标注过程”为例,在实际操作时,新闻机构应当建立专门的数据标注团队,确保每个标注任务都有清晰的责任划分。同时,应制定详细的标注指南,包括但不限于定义关键术语、设定评价标准等。此外,还应该定期审查标注结果,通过交叉验证等方式保证标注质量。对于涉及个人隐私或国家安全的信息,则需特别注意遵循最小化原则,即只收集完成任务所必需的数据,并采取加密存储等措施保护数据安全。
总之,《TCAPT 014-2024》通过对数据来源透明度的细化规定,进一步提高了新闻行业大规模预训练模型的安全性和可靠性。希望各相关单位能够严格按照标准执行,共同促进健康有序的发展环境。