1. AI 时代数据安全风险

在生成式人工智能(AI)时代,传统的数据和隐私保护面临着前所未有的挑战。

  • 数据泄露风险增加:生成式 AI 模型的构建依赖于海量的数据输入,这显著增加了数据泄露和隐私泄露的风险。许多公司通过各种途径获取数据以训练这些模型,包括从互联网公开获取和收集手机 App 数据,用户隐私可能在不知情的情况下被获取。

  • 数据使用不确定性:在需要使用用户隐私数据来训练模型的场景中,数据授权使用后的删除情况并不明确。数据是否会被按照要求删除,还是被用于训练大语言模型,存在模糊地带。

  • 模型滥用风险:使用各类数据训练而成的大语言模型,存在被恶意滥用的风险。已经出现了通过注入恶意内容的提示词来污染大语言模型记忆的攻击案例。个人隐私数据一旦被滥用,可能导致无法预测的严重后果。

  • 多模态AI的挑战:多模态大语言模型能够通过图片或少量语音信息生成视频和大段音频。结合其他技术手段,生成式 AI 工具可以模拟出逼真的各类图像文件。如果被用于处理个人隐私信息(如简历网站的图片或个人履历),将大大增加维护法律的成本。

2. Google Cloud 机密计算方案 – Confidential Computing

除了大语言模型本身的安全(感兴趣的读者可以了解 Google Cloud Model Armor),无论在数据准备,还是模型训练、推理、Fine Tune 诸多环节上,都和数据处理和数据保护密不可分。但是传统的加密方案通常侧重于传输中数据和存储中数据的加密,而对处理中数据的保护则更具挑战性。机密计算正是为了解决这一难题而诞生的。

Google Cloud 的机密计算 Confidential Computing 是一项云服务,旨在保护云中处理中的数据,通过在普通的 Google Cloud 虚拟机(VM)中加密正在使用的数据,实现对数据的机密性保护。

  • 机密虚拟机 Confidential Computing:机密虚拟机利用 AMD 和 Intel 等公司现代 CPU 提供的安全技术。对于 Intel 上的 AI/ML 工作负载,还利用 Intel AMX 这一 CPU 加速器,该加速器在机密虚拟机的通用 C3 机器系列上默认启用。C3 机器系列上的机密虚拟机为 AI 模型和数据提供硬件级保护,并显著提高深度学习和推理工作负载的性能。

  • 机密 GPU:对于 GPU 部分,配备英伟达 H100 GPU 的加速器优化型 A3 机器系列上的机密虚拟机,可帮助企业充分发挥 AI 和机器学习的潜力,同时保护敏感数据。配备 H100 GPU 的机密虚拟机有助于确保数据在整个处理流程中都受到保护,降低了未经授权访问的风险,包括来自系统内的特权用户或恶意行为者的风险。A3 机器系列上的机密虚拟机为 AI 工作负载提供可信的执行环境,使企业能够更安全地与合作伙伴和第三方供应商进行协作。

  • 机密 GKE 节点:Google Kubernetes Engine(GKE) 节点也支持机密计算能力。借助机密 GKE 节点,客户可以对 GKE 集群内处理的数据进行加密,且不会显著降低性能。机密 GKE 节点与机密虚拟机基于相同的技术基础构建,允许您使用由处理器生成和管理的节点专用密钥将数据加密保存在内存中。这些密钥在节点创建期间在硬件中生成,并且仅驻留在处理器内,从而确保 Google 或主机上运行的其他节点无法访问这些密钥。

  • 更广泛的应用:目前,Google Cloud 的机密计算能力不仅在 VM 和 GKE 节点中支持客户,还可以在 Dataproc 和 Dataflow 中用于保护客户数据。

2.1 机密计算原理

Google Cloud 机密虚拟机基于以下原理设计:

该图展示了机密计算如何保护客户虚拟机内存免受主机环境的影响。客户虚拟机在其虚拟内存空间内运行,虚拟机管理程序向主机内存控制器请求物理内存分配。与传统虚拟化不同的是,在安全处理器/库的控制下,主机内存控制器会对分配给机密虚拟机的物理内存进行加密。这种加密确保即使主机软件(UEFI、OS、虚拟机管理程序)受到威胁,也无法访问机密虚拟机内存的解密内容。安全处理器/库充当信任根,管理密钥并确保机密环境的完整性。这种架构为云中的敏感工作负载创建了一个隔离且受保护的执行环境。借助机密计算,客户可以确信他们的数据在云中处理时将保持私密和加密,从而预防数据处理过程中的意外泄漏,防止未经授权的访问和其他漏洞导致的风险。

2.2 机密空间 Confidential Space

下图展示了 Google Cloud 的 Confidential Space 服务的工作原理,该服务与上述的 Confidential Computing 密不可分:

从架构图可以看出,Google Cloud 机密空间 Confidential Space 支持跨不同的 Google Cloud 项目对敏感数据进行安全协作。在此架构中,工作负载在 Operator 项目内的可信执行环境(TEE)中运行。TEE 提供硬件支持的安全区域,隔离工作负载及其数据。证明验证者独立确认 TEE 及其内部运行的工作负载的完整性和可信度,确保其未被篡改。在合作方参与的项目中,驻留着资源所有者拥有的受保护资源。Operator 项目中的工作负载对这些受保护资源的访问,受到工作负载身份池(WIP)和身份和访问管理(IAM)策略的约束,从而实现对数据共享的细粒度控制。资源所有者根据其证明的身份向工作负载授予权限。这种架构通过促进安全的多方计算和数据共享,在不损害机密性的前提下,提供了巨大的商业价值。它允许组织协作处理敏感数据集,获得新的见解,遵守严格的数据隐私法规,并在协作数据分析和机器学习场景中建立信任,同时确保数据在共享环境中处理时也能受到保护。

在多方数据分析处理的需求中,机密计算可以扩展到 Google Cloud Confidential Space。在金融、零售等许多行业,多方需要共享数据,或者数据拥有者与处理者需要共同协作才能完成数据分析任务,但各方都不希望其他方直接访问或获取自己的数据。借助这项服务,客户可以通过汇总和分析敏感数据获得共同价值,同时保持数据的机密性。客户还可以执行联合数据分析和机器学习(ML)模型训练等任务,并借助信任保证其拥有的数据不受各方侵害,包括加强对云服务提供商访问的保护。

Google Cloud Confidential Space 还具有支持客户实现全同态加密实现框架差分隐私计算的能力,并提供相应的代码样例。这两种能力在帮助客户实现复杂的机器学习模型和隐私保护方面具有强大的能力。

3. 小米手机 AI 场景中的机密计算应用

小米致力于为全球使用者提供安全且创新的 AI 体验,与 Google 合作打造小米 HyperAI,通过一套强大的 AI 工具提高了用户的生产力和创造力,包括 AI 写作、AI 语音识别和 AI 创意助手等。

小米团队在考察 Google Gemini 产品的同时,也提出了加强保护客户数据和隐私的需求。在设备端保护客户隐私和数据一直是小米关注的重点之一。

在了解 Google Confidential Computing 之后,小米团队基于 Google Cloud 的云服务,构建了基于手机端硬件和 Google Cloud 机密计算的解决方案。该方案的参考架构如下图所示:

该图展示了在 Google Cloud 生态系统中运行的 AI 应用程序多层架构,其设计重点在于安全性和信任。它包含五个关键层:

1. 应用层:这是面向用户的应用程序层,利用底层的 AI 模型,与模型层交互以执行推理等任务或运行 AI 功能。

2. 模型层:此层包含 AI 模型。小型模型用于轻量级任务或边缘部署;小型和中型模型用于在性能和资源使用之间取得平衡;SOTA LLM(最先进的大型语言模型)用于复杂的 AI 任务。应用层中的应用程序根据其特定需求使用这些模型。

3. AI 基础设施层:这是 AI 执行环境的核心,专注于安全且可扩展的基础设施。

         机密空间和机密计算:提供安全的、硬件支持的可信执行环境(TEE),敏感数据和 AI 模型可以在其中以增强的隐私和安全性进行处理。这确保了数据在整个处理流程中的保护、访问权限控制、完整性和隐私的保护。

         SOTA LLM - Gemini:表示模型层的 SOTA LLM 专门在 AI 基础设施层内的Google Gemini 基础设施上运行。

         训练基础设施:包括用于训练 AI 模型的基础设施,例如 TPU、GPU 和 Google Kubernetes Engine (GKE)。TPU 和 GPU 是用于机器学习的专用硬件加速器。GKE 提供了一个可扩展且可管理的容器编排平台,用于部署和管理训练工作负载。

         其他:如 Android 设备和云负载平衡,组织策略,IAM(身份和访问管理),日志记录,CMEK(客户管理加密密钥),DRZ(数据驻留区),A&T(证明和信任)。

4. Google Cloud TGAIF 通用参考架构

结合更多的 Google Cloud 技术架构、Gen AI 以及安全合规服务,我们为客户提出了端到端的可信 Gen AI 基础参考架构(TGAIF:End-to-End Trustable Gen AI Foundation):

该图描绘了 Google Cloud 利用机密计算和机密空间构建的可信 Gen AI 边界的参考架构,该架构映射到更广泛的 Apple PCC 边界(可能指私有云计算或类似概念)。该架构强调在整个生命周期内(从用户交互到模型执行和存储)保护 Gen AI 工作负载和敏感数据。

最终用户与可能使用 Gen AI 模型的应用程序进行交互,此交互受到身份感知代理、云负载平衡和 WAF/Anti-DDoS 的保护。核心 Gen AI 工作负载和敏感数据驻留在机密空间内,利用 TEE 进行安全执行,并由安全处理器提供内存加密。机密空间内受保护资源的访问由 KMS、WIP 和 IAM 严格控制,证明可确保此安全环境的完整性。机密空间内的 Gen AI 应用程序可以与 Vertex AI、Cloud Storage、Cloud Bigtable 等其他 Google Cloud 服务交互以保存和处理数据,还可以利用 Google 的基础模型服务进行推理,并安全地管理模型权重。训练和推理的底层基础设施依赖于 Cloud TPU、GPU 和 GKE,所有这些都在端到端信任基础及其安全控制的保护下运行。加密在多个层面上得到加强:用户传输数据的加密和隐私,大多数 Google Cloud 服务的默认加密(静态和传输中),以及机密计算提供的 TEE 中的默认加密(使用中)。

Google Cloud 机密计算和机密空间的方案,基于硬件的隔离(TEE):提供强大的安全边界,即使是特权软件也难以突破。使用这类内存加密:加密机密 VM 的整个内存空间,保护使用中的数据。同时通过证明功能,允许在加载敏感数据或模型之前,对机密空间环境的身份和完整性进行加密验证。通过精细的访问控制(KMS、WIP、IAM):实现对谁以及什么可以访问受保护资源的精确控制。Google Cloud 机密计算和机密空间与其他 Google Cloud 服务(如 Vertex AI、Cloud Storage 和 GKE)的无缝集成,为安全的 AI 开发和部署提供全面的平台。该方案利用安全硬件,包括利用现代处理器(如 AMD SEV)中内置的安全功能,为信任奠定坚实的基础。Google Cloud 机密计算和机密空间还加强了多层安全控制能力,从网络边界到硬件级加密,以最大限度地降低入侵风险。

5. Google Cloud 机密计算的业务价值和应用场景

Google Cloud 机密计算及机密空间,有如下的业务价值:

  • 增强敏感 AI 工作负载的安全性:允许组织在机密数据上运行 Gen AI 模型,并提供高度保证,即使来自云提供商基础设施的未经授权的访问也不会发生。

  • AI 项目的安全协作:通过强大的数据隔离和访问控制,促进敏感 AI 计划中不同团队或组织之间的协作。

  • 满足法规遵从性:通过提供处理敏感的个人或健康信息的安全环境,帮助组织遵守严格的数据隐私法规(例如 GDPR、HIPAA)。

  • 保护知识产权:通过在硬件支持的安全区域内执行专有的 AI 模型和算法来保护它们。

  • 建立客户信任:通过展示对数据安全和隐私的承诺,在与越来越关注其数据在 AI 应用程序中如何使用的客户之间建立更大的信任。

  • 启用新的用例:为在数据保密性至关重要的高度敏感领域(如金融服务、医疗保健和政府)中使用 Gen AI 开辟了可能性。

在很多行业和商业场景中,机密计算及机密空间也具有很高的价值:

1. 金融行业

  • 安全的多方计算:金融机构经常需要与其他银行、保险公司或第三方服务提供商合作,以进行风险评估、欺诈检测或合规性检查。机密空间允许多方在共享数据上进行计算,而无需暴露原始敏感信息。例如,多家银行可以联合训练一个反欺诈模型,而无需共享客户的详细交易记录。参考的场景描述如下:

该图代表了多方计算的典型场景。可以供多个行业用户参考。

  • 保护敏感数据分析:金融机构拥有大量的客户敏感数据,如交易记录、贷款申请和个人身份信息。机密计算可用于在云端安全地分析这些数据,以获得业务洞察,同时满足严格的数据隐私法规,如 GDPR。参考的场景描述如下:

该图代表了机密计算的典型场景。可以供多个行业用户参考。

  • 区块链安全:机密计算可以增强区块链技术的安全性。例如,它可以保护智能合约中的敏感数据,或确保交易验证过程中的隐私。

2. 零售行业

  • 个性化推荐:零售商可以使用机密计算来分析客户的购买历史和偏好,从而提供个性化的产品推荐,同时保护客户的隐私。

  • 供应链优化:机密空间可以帮助零售商与供应商共享敏感的销售数据和库存信息,以优化供应链管理,而无需暴露具体的商业秘密。

  • 欺诈检测:零售商可以使用机密计算来检测信用卡欺诈和其他类型的欺诈行为,同时保护客户的支付信息。

3. 制造行业

  • 知识产权保护:制造商可以使用机密计算来保护其在云端处理的敏感设计图纸、生产流程和配方等知识产权。

  • 预测性维护:机密计算可以用于分析传感器数据,以预测设备故障并优化维护计划,同时保护敏感的生产数据。

  • 供应链协作:制造商可以与供应商和合作伙伴安全地共享生产计划和库存信息,以提高效率和减少成本。

4. 汽车行业

  • 自动驾驶数据处理:机密计算可以用于安全地处理来自自动驾驶汽车的敏感传感器数据,例如摄像头图像和激光雷达数据,以训练和改进自动驾驶算法。

  • 车辆数据共享:汽车制造商可以与保险公司、维修服务提供商和其他合作伙伴共享车辆数据,以提供新的服务和改善客户体验,同时保护车主的隐私。

  • 安全的车载计算:机密计算可以增强车载计算机系统的安全性,保护车辆免受黑客攻击,并确保关键功能的完整性。

5. 手机行业

  • 设备上的隐私保护 AI:手机制造商可以使用机密计算技术,在设备和云上安全地处理用户的个人数据,以提供 AI 功能。参考的场景描述如下:

在很多 AI 场景中,涉及到客户隐私的情况都可以参考上图的典型场景。

  • 安全的数据分析:手机制造商可以安全地分析用户行为数据,以改进产品设计和用户体验,同时保护用户的隐私。

  • 应用程序安全:机密计算可以用于创建一个安全的环境,以运行敏感的应用程序,如移动支付和数字钱包,从而防止恶意软件和攻击。

这些只是机密计算和机密空间在各个行业中的一些典型应用。随着数据安全和隐私变得越来越重要,该方案有望在未来得到更广泛的应用。

相关推荐