DistinctBy 是什么,.NET 版本要求是多少
DistinctBy是 LINQ 提供的扩展方法,用于根据指定键选择器(如对象的某个属性)对序列去重。它不是 .NET Framework 或早期 .NET Core 的原生 API,而是从 .NET 6 开始引入 的新方法,位于
System.Linq命名空间中。 如果你用的是 .NET 5 或更早版本,直接调用
DistinctBy会编译失败,提示“未找到定义” .NET 6+ 项目可直接使用,无需额外 NuGet 包 如果无法升级框架,需手动实现等效逻辑(见下节)
不支持 DistinctBy 时怎么替代:用 GroupBy + First 或 ToLookup
在 .NET 5 及以前,常见替代方式是组合已有 LINQ 方法。注意这不是性能最优解,但语义清晰、兼容性强:
list.GroupBy(x => x.Id).Select(g => g.First())
简单直观,但会遍历整个分组(哪怕只要第一个元素),内存开销略高
list.ToLookup(x => x.Name).Select(g => g.First())
内部构建哈希表,适合多次查询同一键;单次去重不如
GroupBy直观
自定义 IEqualityComparerDistinct
更底层、更灵活,但写法冗长,容易出错(比如 GetHashCode 实现不一致导致去重失效)
示例场景:对
List<person></person>按
Name去重
var unique = people.GroupBy(p => p.Name).Select(g => g.First()).ToList();
DistinctBy 的正确用法和常见陷阱
DistinctBy接收一个键选择器函数,返回首个匹配键的元素,后续相同键的元素被跳过: 正确写法:
list.DistinctBy(x => x.Category)错误写法:
list.DistinctBy(x => x.Category.ToString())(多余 ToString 可能掩盖 null 异常)
注意事项:
键选择器返回值为null时,所有
null键会被视为相等(符合 ReferenceEquals 行为) 不支持复合键直接写法,如需按多个属性去重,得构造匿名对象或元组:
DistinctBy(x => new { x.Type, x.Status })
它是延迟执行的,但内部会缓存已见键值,所以不是纯流式处理;大量数据时注意内存占用
DistinctBy 和 Distinct + 自定义比较器的性能差异
DistinctBy底层使用
Set<tkey></tkey>缓存键,时间复杂度接近 O(n),而手写
IEqualityComparer<t></t>配合
Distinct要求你同时实现
GetHashCode和
Equals,稍有不慎就会: 忘记处理
null导致
NullReferenceException
GetHashCode返回常量(如
return 0;),使集合退化为线性查找,O(n²) 属性值类型变更(如从
int改成
long)后未同步更新哈希逻辑
除非有特殊比较需求(如忽略大小写字符串比较),否则优先用
DistinctBy—— 它把键提取和去重逻辑分离得更干净,也更难写错。
实际项目里最容易被忽略的是:去重依据是否真能代表“业务唯一性”。比如按
