使用 Amazon Lex 和 Amazon CloudWatch Logs 检测和保护敏感数据机

2026-01-27 12:42:02
资讯中心

使用 Amazon Lex 和 Amazon CloudWatch Logs 检测和保护敏感数据

在数字化时代，保护个人可识别信息PII不仅是合规要求，更是消费者信任和商业诚信的基石。组织采用像 Amazon Lex 这样的先进自然语言检测服务来构建对话接口，并通过 Amazon CloudWatch 监控和分析操作数据。

关键要点

保护 PII 对于维护客户信任以及合规性至关重要。使用 Amazon Lex 的槽位模糊处理功能和 CloudWatch Logs 的数据保护功能，可以有效识别和保护 PII。通过定期审计和强化访问控制，组织可以确保敏感数据的安全性。实施服务控制策略SCP来限制对 Amazon Lex 和 CloudWatch Logs 的无授权访问。

组织面临的一个风险是通过日志、语音聊天记录和指标无意间暴露敏感数据。随着网络威胁越来越复杂以及数据保护违规带来的严格惩罚，这一风险在加剧。处理庞大的数据集不仅仅是识别和分类 PII。挑战还在于实施具有强大机制的模糊和删除这些敏感数据，同时要确保这些安全措施不会削弱对商业运营至关重要的功能和分析。

小熊加速器下载官网

本文将提供有关如何通过检测和模糊处理技术来保护 PII 的指导，特别是对于使用 Amazon Lex 和 CloudWatch Logs 的环境。

解决方案概述

为了解决这一关键挑战，我们的解决方案使用 Amazon Lex 的槽位模糊处理功能和 CloudWatch Logs 的数据保护能力，专门针对在日志中检测和保护 PII。

在 Amazon Lex 中，槽位用于在对话中捕获和存储用户输入。槽位是在意图中用于表示用户希望执行的操作的占位符。例如，在航班预定机器人中，槽位可能包括出发城市、目的城市和旅行日期。槽位模糊处理确保通过 Amazon Lex 对话接口收集的任何信息例如姓名、地址或其他用户输入的 PII在捕获时就被模糊处理。这种方法降低了聊天记录和回放中敏感数据暴露的风险。

在 CloudWatch Logs 中，数据保护和自定义标识符通过在会话属性、输入转录和其他与组织相关的敏感日志数据中启用 PII 的掩蔽，增加了额外的安全层。

这种方法最小化了这些服务中敏感信息的足迹，并有助于确保遵守数据保护法规。

接下来的部分将演示如何识别和分类数据、定位敏感数据，以及监控和保护数据，无论是在传输中还是在休息状态下，特别是在可能无意中出现的区域。以下是实现这一目标的四种方式：

方法描述Amazon Lex使用槽位模糊处理和选择性对话日志捕获来监控和保护数据。CloudWatch Logs使用回放和日志组策略监控和保护数据。Amazon S3使用存储桶安全性和加密来监控和保护数据。服务控制策略使用服务控制策略SCPs监控和保护数据治理控制和风险管理政策。

识别和分类数据

第一步是识别和分类流经系统的数据。这包括了解处理的信息类型并确定它们的敏感级别。

要确定 Amazon Lex 中意图的所有槽位，请执行以下步骤：

在 Amazon Lex 控制台，导航栏选择 Bots。选择您喜欢的机器人。在导航栏中选择 All Languages 下的地区并选择 Intents。从列表中选择所需的意图。在 Slots 部分，记录意图中的所有槽位。

确认意图中的槽位后，重要的是根据它们的敏感级别及未经授权访问或披露的潜在影响进行分类。例如，您可能会有以下数据类型：

姓名地址电话号码电子邮箱账户号码

电子邮箱和物理邮政地址通常被认为是中等分类级别。敏感数据如姓名、账户号码和电话号码应标记为高分类级别，这表明需要采取严格的安全措施。这些指南可以帮助系统化地评估数据。

定位数据存储

在对数据进行分类后，下一步是确定这些数据在系统和应用中的存储位置。对于涉及 Amazon Lex 和 CloudWatch 的服务，识别所有数据存储及其在处理 PII 中的作用至关重要。

CloudWatch 捕获 Amazon Lex 生成的日志，包括可能包含 PII 的交互日志。定期审计和监控这些日志对于检测任何未经授权的访问或数据处理异常是必要的。

Amazon S3 通常与 Amazon Lex 一起使用，用于存储包含敏感信息的通话录音或转录。确保这些存储桶正确配置了加密、访问控制和生命周期策略对于保护存储的数据至关重要。

通过识别和分类数据，以及定位数据存储如 CloudWatch 和 Amazon S3，组织可以构建强大保护的框架。该框架应包括定期审计、访问控制和数据加密，以防止未经授权的访问并遵守数据保护法律。

使用 Amazon Lex 监控和保护数据

在本节中，我们展示如何通过使用槽位模糊处理和选择性对话日志捕获来保护您的数据。

Amazon Lex 中的槽位模糊处理

敏感信息可能出现在对话日志的输入转录中。在存储或记录之前，必须实施检测和掩蔽或删除 PII 的机制。

在使用 Amazon Lex 开发对话接口时，保护 PII 对于维护用户隐私和遵守数据保护法规至关重要。槽位模糊处理提供了一种机制，可以在对话日志中自动模糊处理 PII，确保敏感信息不会暴露。当在 Amazon Lex 机器人中配置意图时，开发人员可以将特定槽位标记为模糊处理。这一设置告知 Amazon Lex 用占位符替代这些槽位的实际用户输入。例如，为设计用于捕获敏感信息如账户号码或电话号码的槽位启用模糊处理确保任何匹配的输入在对话日志中被掩蔽。槽位模糊处理使开发人员能够显著减少无意中记录敏感信息的风险，从而增强对话应用程序的隐私和安全性。在机器人设计阶段，标识并标记所有可能捕获 PII 的槽位是一种最佳实践，以便在对话流程中提供全面保护。

要从 Amazon Lex 控制台启用槽位模糊处理，请执行以下步骤：

在 Amazon Lex 控制台，选择Bots 在导航栏。选择您喜欢的机器人。在导航栏中选择所有语言下的地区并选择 Intents。从列表中选择您首选的意图。在 Slots 部分，展开槽位详细信息。选择 Advanced options 以访问其他设置。选择 Enable slot obfuscation。选择 Update slot 以保存更改。

使用 Amazon Lex 和 Amazon CloudWatch Logs 检测和保护敏感数据机

选择性对话日志捕获

Amazon Lex 提供选择如何捕获对话日志的能力，通过启用过滤某些类型的信息来最小化暴露私人或机密信息的风险。此外，选择性日志捕获也有助于组织遵守数据隐私法规，因为它使数据收集和存储过程具备了更多的控制权。可以选择捕获文本、音频或文本和音频日志。

当为文本和音频日志启用选择性对话日志捕获时，将禁用对话中所有意图和槽位的日志记录。要生成特定意图和槽位的文本和音频日志，请将选择性对话日志捕获的会话属性设置为“true”。当启用选择性对话日志捕获时，SessionState、Interpretations 和 Transcriptions 中未通过会话属性启用日志记录的任何槽位值将在生成的文本日志中被模糊处理。

要启用选择性对话日志捕获，请完成以下步骤：

在 Amazon Lex 控制台，选择 Bots 在导航栏。选择您喜欢的机器人。选择 Aliases 以在 Deployment 下选择机器人的别名。选择 Manage conversation logs。选择 Selectively log utterances。对于文本日志，选择一个 CloudWatch 日志组。对于音频日志，选择一个 S3 存储桶来存储日志，并分配一个 AWS Key Management Service (AWS KMS) 密钥以增强安全性。保存更改。

现在已激活槽位的选择性对话日志捕获。

在导航栏选择 Intents，并选择您的意图。在 Initial responses 下，选择 Advanced options 并展开 Set values。对于 Session attributes，根据希望启用选择性对话日志捕获的意图和槽位设置以下属性。这将捕获对话中仅包含特定槽位的发话。xamzlexenableaudiologginglt intentgtlt slotgt = truexamzlexenabletextlogginglt intentgtlt slotgt = true选择 Update options 并重建机器人。

将 lt intentgt 和 lt slotgt 替换为各自的意图和槽位名称。

使用 CloudWatch Logs 监控和保护数据

在本节中，我们展示如何通过使用回放和日志组策略来保护您的数据。

CloudWatch Logs 中的回放

当 Amazon Lex 进行交互时，从机器人向客户传达提示或消息时，存在意外包含 PII 的潜在风险。这种风险也扩展到 CloudWatch Logs，其中记录了这些交互以便进行监控、调试和分析。如果不适当地处理，旨在确认或澄清用户输入的提示或消息可能会意外暴露敏感信息。为减轻这种风险并保护 PII，设计和部署 Amazon Lex 机器人时需要一种战略性的方法。

解决方案在于谨慎构建可能包含 PII 的槽位值的引用及用于机器人的响应消息。采用特定格式来传递槽位值，即使用花括号将它们封装起来例如 {slotName}，允许开发人员控制这些信息如何呈现给用户并记录在 CloudWatch 中。这种方法确保了当机器人构建消息时，它通过槽位名称引用，而不是槽位值，从而避免任何敏感信息直接包含在消息内容中。例如，机器人不会说：“您电话号码是 1234567890 吗？”而是使用通用占位符：“您电话号码是 {PhoneNumber} 吗？”其中 {PhoneNumber} 是对捕获用户电话号码的槽位的引用。这种方法允许机器人确认或澄清信息而不暴露实际数据。

当这些交互记录在 CloudWatch 中时，日志只会包含槽位名称引用，而不是实际的 PII。这项技术显著降低了敏感信息在日志中暴露的风险，增强了隐私性并遵守数据保护法规。组织应确保参与机器人设计和部署的所有人员都接受这些实践的培训，以便在所有交互中一致地维护用户信息的安全。

以下是一个以 Python 编写的 AWS Lambda 函数示例代码，用于引用用户提供的电话号码的槽位值。使用 SML 标签来格式化槽位值，以便提供慢速和清晰的语音输出，并返回响应以确认捕获的电话号码的正确性：

pythondef lambdahandler(event context) # 从事件中提取意图名称 intentname = event[sessionState][intent][name] # 从事件中提取槽位 slots = event[sessionState][intent][slots]

# 检查意图名称是否为 INTENTNAMEif intentname == INTENTNAME    # 从 SLOTNAME 槽位中检索电话号码    phonenumber = slots[SLOTNAME][value][interpretedValue]    # 创建带有电话号码的 SSML 格式消息    msg = fltspeakgt            Thank you for providing your phone number Is             ltprosody rate=slowgt            ltsayas interpretas=telephonegt{phonenumber} lt/sayasgt            lt/prosodygt correct            lt/speakgt    # 创建消息数组    messagearray = [        {            contentType SSML            content msg        }    ]    # 返回对话操作、意图状态和消息数组的响应    response = {        sessionState {            dialogAction {                type Close            }            intent {                name intentname                state Fulfilled            }        }        messages messagearray    }else    # 对未处理意图的通用响应    response = {        sessionState {            dialogAction {                type Close            }            intent {                name intentname                state Fulfilled            }        }        messages [            {                contentType PlainText                content I apologize but I am unable to assist            }        ]    }return response

将 INTENTNAME 和 SLOTNAME 替换为您首选的意图和槽位名称。

CloudWatch 数据保护日志组策略

CloudWatch Logs 中接收的敏感数据可以通过日志组策略进行保护。这些策略允许审计和掩蔽在日志事件中出现的敏感数据。

CloudWatch Logs 支持受管和自定义数据标识符。

受管数据标识符提供了预配置的数据类型，以保护财务数据、个人健康信息PHI和 PII。对于某些类型的受管数据标识符，检测还依赖于在敏感数据附近找到某些关键字。

每个受管数据标识符旨在检测特定类型的敏感数据，例如姓名、电子邮件地址、账户号码、AWS 秘密访问密钥或特定国家或地区的护照号码。在创建数据保护政策时，您可以配置使用这些标识符来分析日志，并在检测到时采取措施。

CloudWatch Logs 数据保护可以通过使用受管数据标识符来检测敏感数据类别。

要在 CloudWatch 控制台上配置受管数据标识符，请完成以下步骤：

在 CloudWatch 控制台，导航栏选择 Logs，然后选择 Log groups。选择您的日志组，在 Actions 菜单中选择 Create data protection policy。在 Auditing and masking configuration 下，对于 Managed data identifiers，选择所有需应用数据保护政策的标识符。选择应用政策的数据存储并保存更改。

自定义数据标识符让您可以定义自己独特的正则表达式，可在数据保护政策中使用。通过自定义数据标识符，您可以针对受管数据标识符不提供的特定 PII 用例。例如，您可以使用自定义数据标识符来查找公司特定的账户号码格式。

要在 Cloud