🔍 Google规模下如何避免爬取重复U

50亿URL去重，Set太占内存，数据库太慢

布隆过滤器

三种方案对比 👇

❌ Set — 快但不省空间
❌ 数据库 — 能用但负载太高
✅ 布隆过滤器 — 首选方案

📌 布隆过滤器原理

📌 工作流程

📌 常用哈希函数
RedisBloom和Spark用murmur，InfluxDB用xxhash

💡 布隆过滤器用极少的内存实现海量数据的去重判断，是大规模系统的利器。

#布隆过滤器 #算法 #爬虫 #系统设计 #程序员 #技术干货

Phaedrus