C# 文件内容分类 C#如何使用机器学习模型对文件内容进行自动分类

来源:这里教程网 时间:2026-02-21 17:43:13 作者:

用 ML.NET 做文件内容分类,别碰 ONNX Runtime 手动推理

直接上结论:C# 里对文本文件做自动分类,优先用

ML.NET
TextLoader
+
SdcaMaximumEntropyBinaryClassifier
(或多类)流程,而不是自己加载 ONNX 模型调
InferenceSession
。前者封装了文本清洗、向量化、训练/预测全链路;后者要手动处理分词、停用词、TF-IDF 或 BERT tokenization,错一个环节就
Input shape mismatch
NaN loss

常见错误现象:

InvalidOperationException: Schema mismatch
—— 多半是训练时用
LoadFromTextFile
读 CSV,但没设
hasHeader: true
,或列名和
TextLoader
Column
属性不一致;
NullReferenceException
model.Predict()
后出现,通常是输入
string
null
或空格串,
ML.NET
默认不校验。

训练数据必须是结构化文本:每行一个样本,至少两列 ——
Label
(字符串或数字)和
Text
(原始内容),CSV 或 TSV 都行
TextLoader
separatorChar
要和实际文件一致,Windows 记事本保存的 CSV 默认是
,
,但 Excel 有时导出带
;
避免在
TextTransform
阶段用自定义正则清理——
ML.NET
内置的
FeaturizeText
已含小写、去标点、n-gram 提取,额外清理反而破坏特征对齐

Label 列必须是 string 类型,别用 int 当类别名

ML.NET
分类器(如
SdcaMaximumEntropyMultiClassifier
)要求
Label
字段是
string
,哪怕你只有 “invoice”、“contract”、“email” 三类。如果训练数据里用的是
1
2
3
,模型会当成回归任务,预测结果变成浮点数,且
Predict()
返回的
PredictedLabel
是乱码或空值。

使用场景:从邮件附件中识别合同 vs 报价单,标签列不能是数据库里的

category_id
整数,得映射成可读字符串;OCR 后的 PDF 文本分类也同理,别把 “invoice” 存成
0
再喂给模型。

读取 CSV 时,用
.LoadFromTextFile<myinput>(path, hasHeader: true)</myinput>
,其中
MyInput.Label
声明为
string
如果原始数据只有数字 ID,训练前加一步转换:
data = data.Select(x => new MyInput { Text = x.Text, Label = IdToNameMap[x.LabelId] })
模型保存后,
Predict()
输出的
PredictedLabel
string
,可直接用于业务分支判断,不用再查表

小样本下优先用 SdcaMaximumEntropy,别硬上 FastTree

文件内容分类通常样本少(几百到几千份)、特征稀疏(关键词分散),

FastTreeBinaryClassifier
容易过拟合,验证集准确率虚高,上线后一跑真实文件就崩。而
SdcaMaximumEntropy
(逻辑回归变种)对文本特征更鲁棒,训练快,内存占用低,适合中小项目快速落地。

性能影响:1000 条训练样本下,

SdcaMaximumEntropyMultiClassifier
训练耗时约 800ms(i7-10875H),
FastTree
要 3.2s 且 AUC 低 0.12;兼容性上,
Sdca
支持 .NET 6+,
FastTree
在 ARM64 上有 JIT 问题,某些 Win11 设备会抛
PlatformNotSupportedException

多分类用
SdcaMaximumEntropyMultiClassifier
,二分类用
SdcaMaximumEntropyBinaryClassifier
,别混用
NumberOfThreads
设为
Environment.ProcessorCount - 1
,避免训练时卡死 UI 线程
如果必须用树模型(比如已有特征工程 pipeline),改用
LightGbmMultiClassifier
,它比
FastTree
更稳,但需额外引用
Microsoft.ML.LightGBM

预测时别传整个文件路径,只传文件内容字符串

模型输入是纯文本,不是文件路径。常见错误是写

var prediction = model.Predict(new MyInput { Text = @"C:\docs\invoice.pdf", Label = "" });
—— 这样模型学的其实是路径规律(比如 “invoice.pdf” 里有 “invoice” 字符串),不是内容语义。真正该做的是先读取文件内容:
File.ReadAllText(path)
,再清理换行和控制字符,最后喂给
Predict()

容易踩的坑:

ReadAllText
默认用 UTF-8,但老系统导出的文件可能是 GB2312 或 ANSI,不指定编码会乱码,导致关键词匹配失败;PDF 或 DOCX 文件不能直接读,必须先用
iTextSharp
DocX
提取文本,否则传进去的是二进制垃圾。

文本预处理只要两步:
text.Replace("\r\n", "\n").Replace("\t", " ").Trim()
,别加复杂正则
PDF 提取推荐
QuestPDF
(轻量)或
PDFsharp
(稳定),避免用
Spire.PDF
(免费版有水印且线程不安全)
如果文件超大(>10MB),截断前 5000 字符即可,
ML.NET
FeaturizeText
默认只取前 10k n-gram,多余部分无意义

最常被忽略的一点:训练和预测时的文本清洗逻辑必须完全一致。哪怕只是预测时多 trim 了一次空格,特征哈希值就变了,模型输出就不可信。

相关推荐

热文推荐