阻止某个站点被 Common Crawl Crawler 抓取。
https://commoncrawl.org/
Robots.txt · 人工智能机器人
获取以下数据 6,620,922 网站 即 Common Crawl Bot Disallow 顾客. 我们知道 5,190,420 直播网站 使用 Common Crawl Bot Disallow 以及额外的 1,430,502 使用的网站 Common Crawl Bot Disallow 历史上 和 3,371,356 网站 美国
5,119,278 实时网站
5,015,490 实时网站
4,992,257 实时网站
4,923,004 实时网站
4,719,358 实时网站
3,518,939 实时网站
3,471,126 实时网站
3,461,325 实时网站
实时网站
1,709,582 实时网站
5,264,472 实时网站
4,299,023 实时网站
8,297,265 实时网站
8,906,110 实时网站
11,796,610 实时网站
11,856,471 实时网站
12,003,031 实时网站
12,495,810 实时网站
12,568,342 实时网站
12,739,715 实时网站
1,856,245 实时网站
18,145,897 实时网站
1,417,242 实时网站
1,335,258 实时网站
844,473 实时网站
250,649 实时网站
233,900 实时网站
156,388 实时网站
312,516 实时网站
297,992 实时网站
获取列表 5,671,924 网站使用 Common Crawl Bot Disallow 其中包括位置信息、托管数据和联系方式。 该列表包括 5,190,420 直播网站 和 481,504 重定向到这些网站的网站。 3,371,356 这些网站 美国.
我们还知道 1,430,502 使用过的站点 Common Crawl Bot Disallow 之前.