用 BenchmarkDotNet
测并发吞吐量最靠谱
直接上结论:C# 里测并发性能,别手写
Task.Run+
Stopwatch,也别用老旧的
Visual Studio Diagnostic Tools抓毛刺——
BenchmarkDotNet是目前唯一能稳定复现、隔离干扰、自动预热、支持多线程/多进程并发模式的工业级方案。
它底层用
RyuJIT预热 + 多轮采样 + GC 控制 + 环境校准,避免“第一次跑慢、第二次快”这类常见幻觉。尤其适合测
ConcurrentDictionary、
Channel<t></t>、
Parallel.ForEachAsync这类高并发组件的真实吞吐(如 ops/sec)和延迟分布(P95/P99)。 安装:
dotnet add package BenchmarkDotNet必须标记
[MemoryDiagnoser]和
[ConcurrencyLevel(4)]才能开启并发压力模式 方法签名必须是
public void MethodName(),不能带参数或返回值 避免在基准方法里做 I/O、随机数、
DateTime.Now—— 这些会污染统计
BenchmarkDotNet
并发配置关键参数
默认是单线程串行跑,要真正压出并发瓶颈,得显式控制线程数、是否共享状态、是否允许 GC 干扰:
[ConcurrencyLevel(8)]:指定最多 8 个线程并发调用该方法(不是 CPU 核心数,是逻辑并发度)
[InvocationCount(1000)]:每个线程执行 1000 次,总调用数 = 线程数 × 次数
[DryJob] / [MediumRun]:开发期用
DryJob快速验证,压测用
MediumRun(约 25 秒)保证数据稳定 若被测方法操作共享对象(如静态
List<t></t>),必须加锁或改用
ConcurrentQueue<t></t>,否则结果不可比
对比测试:lock
vs SpinLock
vs Interlocked
测并发性能最常踩的坑,是拿错标尺——比如只比单次加锁耗时,却忽略争用率。下面这个例子会真实暴露高争用下三者的差异:
[MemoryDiagnoser]
[ConcurrencyLevel(16)]
public class LockBenchmarks
{
private readonly object _objLock = new();
private readonly SpinLock _spinLock = new();
private int _counter = 0;
<pre class='brush:php;toolbar:false;'>[Benchmark]
public void WithLock()
{
lock (_objLock) Interlocked.Increment(ref _counter);
}
[Benchmark]
public void WithSpinLock()
{
bool taken = false;
try
{
_spinLock.Enter(ref taken);
Interlocked.Increment(ref _counter);
}
finally
{
if (taken) _spinLock.Exit();
}
}
[Benchmark]
public void WithInterlocked()
{
Interlocked.Increment(ref _counter);
}}
注意:这里
_counter是实例字段,每个线程操作的是同一份内存地址,才能触发真实争用。如果误写成局部变量,所有结果都会接近
Interlocked,毫无参考价值。
避开 Stopwatch
手动计时的典型陷阱
有人用
Stopwatch.Start() → Task.WhenAll(...) → Stopwatch.Stop()测并发,结果偏差极大,原因很实在:
Stopwatch测的是“任务发起到全部结束”的墙钟时间,不是实际工作耗时(中间大量线程挂起、调度延迟全算进去了) 没控制 GC 触发时机,一次
Gen2就让整轮结果偏移 50ms+ 没排除 JIT 编译开销——首次调用方法永远最慢,而
BenchmarkDotNet会自动预热 3 轮以上 没处理异步方法的
await上下文捕获开销,尤其在 UI 线程或
AspNetCore同步上下文中会放大延迟
真要临时测,至少用
Environment.ProcessorCount控制并发数,并在
Task.Run内部用
Stopwatch测单次执行,再取平均——但这仍不如
BenchmarkDotNet的
Mean+
StdDev统计可靠。
并发性能不是看峰值吞吐,而是看 P99 延迟是否稳定、GC 是否频繁、CPU 是否打满还卡顿。这些指标
BenchmarkDotNet默认输出,但容易被忽略——尤其
Allocated列,一个没注意的闭包捕获,就能让每秒分配几 MB 内存,把吞吐直接砍半。
