从用户上传的 XML 文件中读取数据时,必须防范恶意内容,如 XML 炸弹、外部实体注入(XXE)和格式错误导致的拒绝服务攻击。C# 提供了多种机制来安全地处理这些风险,关键在于禁用危险功能并进行结构验证。
禁用 DTD 和外部实体解析
XML 文档类型定义(DTD)是 XXE 攻击的主要入口。应始终在 XmlReaderSettings 中显式禁用 DTD 处理,防止加载外部资源。
设置 DtdProcessing = DtdProcessing.Prohibit 或 DtdProcessing.Ignore 将 XmlResolver 设为 null,阻止任何外部 URI 解析示例代码:
var settings = new XmlReaderSettings
{
DtdProcessing = DtdProcessing.Prohibit,
XmlResolver = null,
MaxCharactersFromEntities = 1024,
MaxCharactersInDocument = 102400 // 限制文档总大小
};
using var reader = XmlReader.Create(stream, settings);
var doc = new XmlDocument();
doc.Load(reader);
使用 Schema 验证结构合法性
仅语法正确不足以保证安全,还需验证内容结构是否符合预期。通过 XSD schema 可限定允许的元素、属性和数据类型。
预先定义可信的 XSD 文件 在 XmlReaderSettings 中添加 Schemas 并启用 ValidationType = ValidationType.Schema 处理 ValidationEventHandler 捕获不符合规则的内容示例:
var settings = new XmlReaderSettings();
settings.Schemas.Add("", "schema.xsd");
settings.ValidationType = ValidationType.Schema;
settings.ValidationEventHandler += (sender, args) =>
{
throw new ArgumentException($"XML 验证失败: {args.Message}");
};
限制资源消耗防御 DoS
即使没有恶意代码,极深嵌套或大量实体仍可能耗尽内存。需设置硬性上限。
MaxCharactersInDocument:限制整个文档字符数 MaxCharactersFromEntities:防止实体扩展爆炸 避免使用 InnerText 加载大文本,改用流式读取清理与最小化数据提取
只提取所需字段,忽略多余节点。不要直接将 XML 节点用于后续逻辑或拼接到输出中。
使用 XPath 或 LINQ to XML 按白名单方式选取特定元素 对提取的字符串执行必要的编码或转义(如写入 HTML 或数据库) 不信任任何属性值,尤其是包含文件路径、URL 的字段例如:
var name = doc.SelectSingleNode("//user/name")?.InnerText ?? "";
name = WebUtility.HtmlEncode(name); // 输出前编码
基本上就这些。只要做到禁用 DTD、强制 schema 验证、限制资源、按需提取,就能大幅降低 XML 处理风险。安全的核心不是“能解析”,而是“只接受明确允许的”。
