处理超大 XML 文件时,不能使用 XDocument 或 XmlDocument 这类会将整个文件加载到内存的类。C# 提供了 XmlReader,它以流式方式读取 XML,只保留当前节点在内存中,非常适合分块解析大文件。
使用 XmlReader 流式读取 XML
XmlReader 按顺序逐节点读取 XML,不会一次性加载全部内容。通过判断节点类型和名称,可以按需提取数据。
以下是一个示例:从一个包含多个
<record></record>节点的大型 XML 文件中分块读取并解析:
using System;
using System.Xml;
<p>public class LargeXmlParser
{
public static void ParseInChunks(string filePath)
{
var readerSettings = new XmlReaderSettings
{
IgnoreWhitespace = true, // 忽略空白节点
IgnoreComments = true // 忽略注释
};</p><pre class="brush:php;toolbar:false;"> using (var reader = XmlReader.Create(filePath, readerSettings))
{
while (reader.Read())
{
// 只关注元素开始标签
if (reader.NodeType == XmlNodeType.Element && reader.Name == "Record")
{
// 使用 ReadSubtree 读取当前 Record 的完整子树
using (var subReader = reader.ReadSubtree())
{
// 移动到子读取器的开头
subReader.Read();
var recordData = ParseRecord(subReader);
ProcessRecord(recordData); // 处理单条记录
}
}
}
}
}
private static Record ParseRecord(XmlReader reader)
{
var record = new Record();
// 读取属性
if (reader.HasAttributes)
{
while (reader.MoveToNextAttribute())
{
switch (reader.Name)
{
case "Id":
record.Id = int.Parse(reader.Value);
break;
case "Name":
record.Name = reader.Value;
break;
}
}
// 回到元素
reader.MoveToElement();
}
// 读取子元素内容(可选)
while (reader.Read())
{
if (reader.NodeType == XmlNodeType.Element)
{
switch (reader.Name)
{
case "Description":
reader.Read(); // 移动到文本节点
record.Description = reader.Value;
break;
}
}
else if (reader.NodeType == XmlNodeType.EndElement && reader.Name == "Record")
{
break; // 结束当前 Record 解析
}
}
return record;
}
private static void ProcessRecord(Record record)
{
Console.WriteLine($"处理记录: {record.Id} - {record.Name}");
// 在这里可以将 record 写入数据库、写入文件或做其他处理
}}
public class Record { public int Id { get; set; } public string Name { get; set; } public string Description { get; set; } }
关键优势与注意事项
内存占用低:XmlReader 不构建完整 DOM 树,只保留当前节点上下文。 只能向前读取:不支持回退或随机访问,必须顺序处理。 适合结构已知的 XML:适用于有固定格式、重复节点(如日志、交易记录)的场景。 避免 ReadOuterXml():该方法会加载整个节点树到内存,破坏流式优势。适用场景举例
导入千万级商品数据的 XML 文件 解析大型日志或审计记录 ETL 工具中处理 XML 源数据基本上就这些。只要结构清晰,用 XmlReader 配合循环和条件判断,就能高效安全地处理任意大小的 XML 文件。
