去重关键在明确去重维度和是否保留原始行信息:DISTINCT适用于整行唯一且无需聚合的场景;GROUP BY支持分组聚合与HAVING筛选;窗口函数如ROW_NUMBER()可精准控制每组保留哪一行。

SQL去重查询核心靠 DISTINCT 和 GROUP BY,但选错方法容易拖慢速度、漏数据或逻辑出错。关键不在“能不能去重”,而在“按什么维度去重”和“要不要保留原始行信息”。
用 DISTINCT 快速筛出唯一值
适合只要结果不重复,不关心原始行数或其它字段关联的场景。它作用于整行(所有 SELECT 字段组合),只要有一列不同,就算不同记录。
- 写法简单:SELECT DISTINCT name, city FROM users; —— 返回 name+city 组合唯一的行
- 注意:DISTINCT 必须放在 SELECT 后第一个位置,不能写成 SELECT name, DISTINCT city
- 性能提示:在 name 和 city 上建联合索引,能显著加速 DISTINCT 执行
- 限制:无法配合聚合函数(如 COUNT、MAX)直接使用,也不能过滤去重后的结果(WHERE 不生效于去重后)
用 GROUP BY 实现带逻辑的去重
当你需要“每个分组只留一行”,同时还要取该组的某个代表值(比如最新时间、最高分数),GROUP BY 就比 DISTINCT 更灵活有力。
- 基础写法:SELECT user_id, MAX(create_time) FROM orders GROUP BY user_id; —— 每个用户取最后下单时间
- 想查完整行?得配合子查询或窗口函数,例如用 ROW_NUMBER() 标记每组序号再筛选第1条
- GROUP BY 字段必须出现在 SELECT 中(除非是聚合列),否则报错(SQL 标准严格模式下)
- 小技巧:加 HAVING 可过滤分组结果,比如 HAVING COUNT(*) > 1 查出重复用户
用窗口函数精准控制“留哪一行”
当业务要求明确——比如“每个手机号只留注册时间最早的那条用户记录”,DISTINCT 和 GROUP BY 都不够直接,这时窗口函数是更优解。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。
还木有评论哦,快来抢沙发吧~