ssdeep 在 C# 中没有官方库,得用原生绑定或现成封装
ssdeep 是 C 写的命令行工具,.NET 生态里没有微软维护的
ssdeep官方包。直接
dotnet add package ssdeep会失败。目前最稳的路径是:用
libfuzzy的 .NET 封装(如
LibFuzzy.NET),或者自己 P/Invoke 调用
libfuzzy.dll。前者适合快速上线,后者可控但要处理 ABI 兼容性。
常见错误现象:
DllNotFoundException: libfuzzy.dll—— 这不是代码写错了,是没把对应架构的 DLL 放对位置(x64 程序不能加载 x86 的
libfuzzy.dll)。 Windows 下推荐用 NuGet 包
LibFuzzy.NET(注意它依赖
libfuzzy的预编译二进制,安装后会在
runtimes/下自动解压) Linux/macOS 需提前
apt install ssdeep或
brew install ssdeep,再确保
LD_LIBRARY_PATH/
DYLD_LIBRARY_PATH包含
libfuzzy.so或
libfuzzy.dylib不要尝试用
Process.Start("ssdeep") 解析输出 —— 启动开销大、无错误隔离、无法复用上下文(比如连续比对多个文件时)
计算文件 ssdeep 哈希必须流式读取,不能全载入内存
ssdeep 内部使用滚动哈希和分块采样,设计上就要求边读边算。如果先
File.ReadAllBytes()再喂给
fuzzy_hash_buf(),对大文件(>100MB)极易触发
OutOfMemoryException,而且完全浪费了 ssdeep 的流式优势。
正确做法是传入
Stream,让封装库内部按需缓冲(典型块大小为 4KB–64KB)。
LibFuzzy.NET提供
FuzzyHash.ComputeFromStream(Stream),底层已处理好 chunking 和状态维持。 别用
string或
byte[]作为中间载体;直接传
FileStream或
MemoryStream(后者仅限小文件) 打开
FileStream时务必加
FileAccess.Read和
FileShare.Read,否则并发读多个文件会报
IOExceptionssdeep 对空文件返回固定字符串
"3::",不是 bug —— 这是规范行为,可直接用于比对
比对两个 ssdeep 哈希值用 fuzzy_compare,不是字符串相等
ssdeep 哈希本质是“模糊”表示,相同内容不同压缩/格式/末尾空格会产生不同字符串,但
fuzzy_compare()能算出相似度分值(0–100)。直接
hash1 == hash2只能捕获完全一致的极少数情况,几乎没实用价值。
LibFuzzy.NET提供
FuzzyHash.Compare(string, string),返回
int(0–100),注意它不抛异常 —— 即使传入非法哈希(如
null或空串)也只返回
-1,必须手动检查。 返回值为
-1表示至少一个输入无效(不是格式错,而是根本不是 ssdeep 输出,比如混入了 md5) 相似度 ≥ 70 通常认为高度相似(如不同打包方式的同一程序);≥ 40 可视为有共同片段(如日志模板被复用) 不要对大量文件两两调用
Compare()—— 时间复杂度 O(n²),应改用局部敏感哈希(LSH)预筛或构建哈希桶
Windows 上 x64/x86 混用是最高频崩溃点
哪怕代码一行没改,只要项目平台目标(Platform Target)和
libfuzzy.dll架构不一致,运行时必崩在
P/Invoke第一调用。错误信息通常是
System.DllNotFoundException或更隐蔽的
System.BadImageFormatException。
验证方法很简单:用
corflags查你的 exe,用
dumpbin /headers查 dll,二者 Machine 字段必须都是
AMD64或都是
IA32。Visual Studio 默认新建项目是
AnyCPU,但它在 x64 系统上会跑成 x64,此时若引用 x86 的 dll,就直接挂。 在项目属性 → “生成” → “平台目标” 明确设为
x64(推荐)或
x86,禁用
AnyCPUNuGet 包
LibFuzzy.NET的
runtimes/win-x64/native/下才是真 x64 版
libfuzzy.dll,别手滑复制错目录 发布时用
dotnet publish -r win-x64 --self-contained true,避免运行机缺 runtime 或 dll
事情说清了就结束。ssdeep 不是黑盒哈希,它的分块逻辑、长度截断、base64 编码变体都会影响最终字符串形态 —— 所以永远信任
fuzzy_compare的返回值,而不是肉眼比对哈希串。
