Common Crawl Crawler によるサイトのクロールをブロックします。
https://commoncrawl.org/
ロボット.txt · AIボット
データにアクセスする 6,620,922 ウェブサイト それは Common Crawl Bot Disallow 顧客. 私たちは知っている 5,190,420 ライブウェブサイト 使用して Common Crawl Bot Disallow そして追加の 1,430,502 使用したサイト Common Crawl Bot Disallow 歴史的に そして 3,371,356 ウェブサイト アメリカ合衆国
5,119,278 ライブサイト
5,015,490 ライブサイト
4,992,257 ライブサイト
4,923,004 ライブサイト
4,719,358 ライブサイト
3,518,939 ライブサイト
3,471,126 ライブサイト
3,461,325 ライブサイト
ライブサイト
1,709,582 ライブサイト
4,956,653 ライブサイト
4,299,023 ライブサイト
8,297,265 ライブサイト
8,906,110 ライブサイト
11,796,610 ライブサイト
11,856,471 ライブサイト
12,003,031 ライブサイト
12,495,810 ライブサイト
12,568,342 ライブサイト
12,739,715 ライブサイト
1,856,245 ライブサイト
18,145,897 ライブサイト
1,336,985 ライブサイト
1,335,258 ライブサイト
844,473 ライブサイト
250,649 ライブサイト
233,900 ライブサイト
156,388 ライブサイト
312,516 ライブサイト
297,992 ライブサイト
リストを取得する 5,671,924 使用中のウェブサイト Common Crawl Bot Disallow これには、位置情報、ホスティング データ、連絡先の詳細が含まれます。 リストには以下が含まれます 5,190,420 ライブウェブサイト そして 481,504 それらのサイトにリダイレクトするウェブサイト。 3,371,356 これらのサイトのうち アメリカ合衆国.
我々はまた、 1,430,502 使用したサイト Common Crawl Bot Disallow 以前.