1.4.1 大语言模型的安全隐患与主要风险点
2023年5月29日,在全国信息安全标准化技术委员会(简称“信安标委”)2023年第一次标准周“人工智能安全与标准研讨会”上,信安标委大数据安全标准特别工作组发布《人工智能安全标准化白皮书(2023版)》。针对人工智能的安全风险现状,该白皮书总结了6个方面:
• 用户数据用于训练,放大隐私信息泄露风险。当前,人工智能利用服务过程中的用户数据进行优化训练的情况较为普遍,但可能涉及在用户不知情的情况下收集个人信息、个人隐私、商业秘密等,安全风险较为突出。
• 算法模型日趋复杂,可解释性目标难实现。目前部分研究正朝借助人工智能解释大语言模型的方向探索。同时,由于近年来人工智能算法、模型、应用的发展演化速度快,关于人工智能是否具备可解释性一直缺乏统一的认知,难以形成统一的判别标准。
• 可靠性问题仍然制约人工智能在关键领域的应用。尽管可通过数据增强方法等提高人工智能的可靠性,但由于现实场景的异常情况无法枚举,可靠性至今仍然是制约人工智能广泛落地的主要因素。
• 滥用、误用人工智能,扰乱生产、生活安全秩序。近年来,滥用、误用人工智能方面,出现了物业强制在社区出入口使用人脸识别、手机应用扎堆推送雷同信息构筑信息茧房等问题。恶意使用人工智能方面,出现了利用虚假视频、图像、音频进行诈骗勒索和传播色情暴力信息等问题。
• 模型和数据成为核心资产,安全保护难度提升。人工智能的训练和模型开发需要大量的资金和人力,使得相关数据和算法模型具有极高的价值。这易引起不法分子通过模型窃取、成员推理等技术手段,或利用人工标注、数据存储等环节的安全漏洞来非法获取模型和数据,安全保护的难度也随之增加。
• 网络意识形态安全面临新风险。由于政治、伦理、道德等复杂问题往往没有全世界通用的标准答案,符合某一区域和人群观念判断的人工智能,可能会与另一区域和人群在政治、伦理、道德等方面有较大差异。
2024年2月29日信安标委发布TC260-003《生成式人工智能服务安全基本要求》。作为国内生成式人工智能安全的指导性文件,《生成式人工智能服务安全基本要求》给出了大语言模型服务在安全方面的基本要求,包括语料安全要求、模型安全要求、安全措施要求、安全评估要求等,适用于服务提供者开展安全评估、提高安全水平,也可为相关主管部门评判生成式人工智能服务安全水平提供参考。
在本书接下来的章节中,我们将逐一深入探讨大语言模型在技术安全、监管合规和伦理风险等方面的安全问题。而在本章,我们将通过几个已公开报道的案例来揭示使用用户数据训练生成式人工智能的安全隐患,这将为我们全面理解大语言模型的安全挑战奠定基础。
案例1:OpenAI遭集体诉讼,被控“窃取私人数据”训练模型[6]
2023年6月,一群匿名人士在一项集体诉讼中声称,ChatGPT的开发商OpenAI公司正在窃取“大量”个人信息训练其人工智能模型,以不顾一切地追逐利润。在这份长达157页的诉状中,这些匿名人士指责OpenAI从互联网上秘密抓取了3000亿字,窃听了“书籍、文章、网站和帖子,包括未经同意获得的个人信息”。
案例2:X/Twitter更新隐私政策,拿用户数据训练AI[7]
2023年9月,X(原名Twitter,推特)突然更新了隐私政策,在2.1条例中,X明确写道:“我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或AI模型。”这意味着用户一旦在X上发帖,就意味着同意了X将其内容拿去训练AI模型。除了这一条可拿用户数据免费训练AI模型的条例外,新版隐私政策还提出:将从9月29日开始收集用户的生物识别数据、工作和教育信息。如果用户同意,X会出于安全等目的收集用户的生物识别信息,让账号更加安全。
案例3:WPS拿用户数据训练AI引发抵制[8]
2023年11月,有网友发现,WPS在其隐私政策中提到:“我们将对您主动上传的文档材料,在采取脱敏处理后作为AI训练的基础材料使用。”11月18日,WPS官方微博做出回应(见图1-4),在向用户致歉的同时,承诺用户文档不会被用于AI训练目的。此前,WPS发布AI公测,声称可以帮助用户润色、续写、扩充文档,写表格公式,生成PPT等,有助于提升用户的学习、办公效率。但是,WPS在隐私政策方面的越界行为,违反了采集数据信息的最小必要原则,涉嫌不当获取用户隐私信息。
图1-4 WPS就隐私政策更新发布的声明