用 Distinct()
去重最常用,但要注意类型是否实现 Equals
和 GetHashCode
对值类型(如
int、
string)或已重写相等逻辑的引用类型,直接调用
Linq.Distinct()即可。它底层依赖对象的相等比较机制: 没重写时,引用类型默认按内存地址判等,即使内容相同也会保留多份
string是特例,虽是引用类型但已重载,所以
new List<string> { "a", "a" }.Distinct()</string> 能正确去重
自定义类必须重写 Equals(object)和
GetHashCode(),否则
Distinct()无效
var numbers = new List<int> { 1, 2, 2, 3 };
var unique = numbers.Distinct().ToList(); // [1, 2, 3]
按指定属性去重要用 DistinctBy()
(.NET 6+)或自定义 IEqualityComparer<t></t>
常见需求是“按
Id或
Name去重”,
Distinct()本身不支持投影。.NET 6 引入了
DistinctBy(),简洁安全:
DistinctBy(x => x.Id)会保留第一个出现的
Id对应项,后续同
Id的跳过 低版本需手写
IEqualityComparer<t></t>,容易漏掉
GetHashCode实现,导致哈希表行为异常 避免用
GroupBy(x => x.Id).Select(g => g.First())—— 性能差,且语义不如
DistinctBy清晰
var users = new List<User> {
new User { Id = 1, Name = "Alice" },
new User { Id = 1, Name = "Bob" },
new User { Id = 2, Name = "Charlie" }
};
var uniqueById = users.DistinctBy(u => u.Id).ToList(); // 保留 Id=1 的第一个(Alice)
原地去重用 HashSet<t></t>
配合 RemoveAll()
或重建列表
Distinct()返回新集合,若需修改原
List<t></t>,不能直接赋值(会丢失引用)。稳妥做法是清空后重新填充: 用
HashSet<t></t>判断重复最高效(O(1) 查找),比嵌套循环或
Contains快得多 对引用类型,仍要确保
T的相等逻辑正确,否则
HashSet也失效 别用
for循环边遍历边删 —— 容易跳过元素或索引越界
var list = new List<string> { "x", "y", "x", "z" };
var seen = new HashSet<string>();
list.RemoveAll(item => !seen.Add(item)); // seen.Add 返回 true 表示首次加入
字符串忽略大小写的去重必须传 StringComparer
Distinct()默认区分大小写,
"A"和
"a"被视为不同。强行转小写再比较(如
Select(x => x.ToLower()).Distinct())会丢失原始大小写形式: 用
Distinct(StringComparer.OrdinalIgnoreCase)既去重又保留原字符串
StringComparer.CurrentCultureIgnoreCase更适合本地化场景,但性能略低 别在
DistinctBy里用
x.Name.ToLower()做 key —— 同样丢失原始值,且无法处理
null
var words = new List<string> { "Apple", "apple", "Banana", "BANANA" };
var unique = words.Distinct(StringComparer.OrdinalIgnoreCase).ToList(); // ["Apple", "Banana"]
实际用哪一种,取决于你手上的数据类型、.NET 版本、是否需要保留原列表引用,以及“重复”的定义粒度——是整个对象相等,还是某个字段一致。最容易被忽略的是自定义类没重写 GetHashCode,结果
Distinct()或
HashSet表现诡异,调试时得回头检查这一条。
