保护GenAl安全

执行摘要

生成式 AI (GenAI) 的应用已呈现显著增长态势，它正在深刻改变各行业领域及日常任务的生产力模式。然而，这种快速普及也带来了全新的安全挑战。哪些新兴风险与攻击途径已经出现？如何界定这些安全风险的严重程度？传统安全解决方案能否为 AI 应用提供有效保障？

主流大语言模型与提示攻击

我们近期对主流大语言模型 (LLM) 进行了针对提示攻击的测试，结果揭示了显著的安全隐患。防护绕过、信息泄露和目标劫持三类攻击方式在不同规模的模型上均表现出较高的成功率，部分攻击技术在数十亿至万亿参数

模型上的成功率超过 50%，极端案例甚至高达 88%。

无论是员工直接使用的 AI 工具、企业级 AI 应用还是 AI 代理，都面临提示攻击这一底层安全挑战。攻击者通过构造对抗性提示，能够操控 GenAI 系统产生非预期或有害输出。尽管已有诸多尝试对这类攻击进行分类，但构建一套完备的分类体系仍面临挑战。现有分类方法往往难以跟上新型攻击手段的演变速度，导致既定的威胁类别无法有效适配或映射持续进化的攻击模式。

以影响为核心的分类体系

为弥补现有不足，本白皮书提出了一套以实际影响为导向的对抗性提示攻击分类体系。该体系对现有 AI 攻击技术进行了详细归类，深入剖析了不同攻击方式对 AI 应用场景和实施技术可能造成的具体影响。更重要的是，本文系统探讨了针对性的防御策略与检测机制，强调“以 AI 对抗 AI”的防护理念。

为助力企业安全团队有效防护 GenAI 生态系统，本文特别介绍 Palo Alto Networks AI Runtime Security™ 解决方案。报告通过剖析真实攻击案例，详细演示 AI Runtime Security 如何为企业提供全面防护。

通过聚焦剖析 GenAI 应用的安全态势，本报告旨在为研究人员、开发人员和企业组织提供必要的 GenAI 系统防护工具和框架，以应对不断演变的威胁。

引言：立即关注提示攻击的紧迫性

在技术飞速发展的当下，GenAI 与 LLM 正深刻重塑各行业运营模式，为跨领域解决方案带来革命性变革。从医疗健康、金融服务到制造业和创意产业，这项颠覆性技术的影响力已全面显现。然而，GenAI 的巨大潜力伴随着不容忽视的安全风险。随着各企业加速采用这些突破性技术，一类新型安全威胁——对抗性提示攻击正快速涌现。

为应对这些安全挑战，本白皮书提出了一套以实际影响为核心的对抗性提示攻击分类体系。该体系对现有AI攻击技术进行了详细归类，深入剖析了不同攻击方式对 AI 应用场景和实施技术可能造成的具体影响。更重要的是，本文系统探讨了针对性的防御策略与检测机制，强调“以 AI 对抗 AI”的防护理念。

从提示攻击到破坏性后果提示攻击之所以亟需关注，源于其可能造成的深远破坏性影响。随着 LLM 和 GenAI 深度集成到关键业务运营和决策流程中，攻击者能够利用细微漏洞操控模型输出、诱导非授权行为或窃取敏感信息。

在某些情况下，GenAI 应用可能产生包含个人身份信息或泄露内部机密的响应，大幅增加敏感数据暴露风险。它们也可能生成包含漏洞的危险代码片段，若被实施可能导致系统入侵、财务损失等严重安全事件。即使微小的提示操控，也可能导致灾难性后果，例如医疗系统生成错误的用药指导，金融模型给出存在缺陷的投资建议，或是制造业预测系统误判供应链风险。

除了这些运营风险外，提示攻击还威胁系统的可信度与可靠性。当利益相关方无法依赖 GenAI 的输出时，企业将面临声誉损害、合规违规和用户信任流失的风险。从伦理角度看，受攻击的 GenAI 系统产生的输出偏差可能导致不公平或有失偏颇的决策，加剧社会不平等并削弱公信力。这种偏差可能影响招聘流程、财务评估和法律判决等领域，放大现实世界的负面后果。本文后续将通过真实攻击案例和防护指南来具体说明这些问题。