Python多线程爬虫如何构建域名级并发控制系统【技巧】

admin 百科 2025-12-19 10

域名级并发控制需为每个域名独立维护计数器，通过 domain_locks 字典存储域名对应 count 和 lock，请求前调用 acquire_domain_slot 加锁检查并增减计数，确保各域名并发数不超限。

Python多线程爬虫如何构建域名级并发控制系统【技巧】-第1张图片-佛山资讯网

Python多线程爬虫中，域名级并发控制不是简单限制总线程数，而是要确保同一域名下的请求在任意时刻不超过设定的并发上限（比如每个域名最多 2 个请求同时进行），避免被封、降低服务器压力，也更符合 robots.txt 规范。

核心思路：为每个域名维护一个计数器，每次发请求前加锁检查并+1，请求完成后再-1。不能只靠全局线程池限流，因为不同域名会互相抢占额度。

创建 domain_locks 字典，键为规范化的域名（如 example.com），值为 {'count': 0, 'lock': threading.Lock()}
请求前调用 acquire_domain_slot(domain)：获取对应 lock → 加锁 → 检查 count
请求后必须调用 release_domain_slot(domain)：加锁 → count -= 1 → 解锁（建议用 try/finally 保证释放）