web-crawler

Top 10 搜索引擎爬虫和 User-Agents

在互联网上,既有坏的爬虫也有好的搜索引擎爬虫。坏爬虫我们要屏蔽掉,因为坏爬虫会消耗我们的服务器或CDN带宽,占用服务器资源,甚至窃取我们的网站内容。好的网络爬虫,我们要热烈欢迎,因为他们一般是搜索引擎如 Google, Bing, and Yahoo。下面我了解一下 Top 10 搜索引擎爬虫。

网络爬虫(蜘蛛)

web-crawler

网络爬虫,又称网络蜘蛛或互联网机器人,它们是一种程序,可以自动浏览网页,索引网页内容。它们可以浏览各种类型的网页内容,如 图片,视频,文字等等。

谷歌,必应和雅虎等搜索引擎的爬虫来访问您的网站,有利于用户在搜索引擎更快的找到您的网站。如果没有这些爬虫,搜索引擎就无法知道您网站的新内容。所以,爬虫在大多情况下是一件好事。但是,有时候爬虫过于频繁的访问网站,可以会引起服务器的负载过高,我们可以利用 robots.txt 来控制爬虫访问的频率。

网络爬虫在HTTP请求使用User-Agent字段识别自己,并且每个网络爬虫都有自己独特的标识。大多数时候,你可以通过检查web服务器日志,查看网络爬虫流量。

Robots.txt

robots.txt 文件放在WEB根目录下,它可以禁止允许网络爬虫的爬取。也可以有更高级的使用方法,如禁止特点网络爬虫等等。

例1:

在这个例子中,我们禁止搜索引擎抓取网站的任何内容。

User-agent: *
Disallow: /

例2:

在这个例子中,表示任何搜索引擎或爬虫可以索引网页的内容。

User-agent: *
Disallow:

10大搜索引擎爬虫

1. GoogleBot

目前 Google 网络爬虫是最为流行的,用于谷歌搜索引擎的内容抓取。

User-Agent

User-agent: Googlebot

2. Bingbot

Bingbot 是微软必应搜索引擎的爬虫。

User-Agent

Bingbot

3. Slurp Bot

Slurp 是雅虎搜索的网络爬虫。

User-Agent

Slurp

4. DuckDuckBot

DuckDuckBot 是 DuckDuckGo 搜索引擎的网络爬虫,DuckDuckGo以保护客户隐私为著称,目前发展迅速。

User-Agent

DuckDuckBot

5. Baiduspider

Baiduspider 是百度搜索引擎的网络爬虫,是中国最大的搜索引擎喽。

User-Agent

Baiduspider

6. Yandex Bot

Yandex Bot 是俄罗斯最大的搜索引擎Yandex的网络爬虫。

User-Agent

YandexBot

7. Sogou Spider

Sogou Spider 是搜索搜索的网络爬虫。

User-Agents

Sogou Pic Spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou head spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) 
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 
Sogou Orion spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) 
Sogou-Test-Spider/4.0 (compatible; MSIE 5.5; Windows 98)

8. Exabot

Exabot 是法国 Exalead 的网络爬虫。

User-Agents

 Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails)
 Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)

9. Facebook External Hit

Facebook 的网络爬虫,可以帮助Facebook 展现广告或处理网页内容链接或显示内容之类的。

User-Agents

facebot
facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

10. Alexa Crawler

Alexa 的网络爬虫,可以帮助Alexa 爬取网页内容。

User-Agent

ia_archiver

坏爬虫

开始提到过,目前网络上也有很多坏爬虫,他们可能是小偷,来偷取您网页的数据,或非法爬去您的网页,不遵守 robots.txt 文件规则,您可以通过 WEB 日志或其他方法找到他们,想尽各种方法屏蔽掉它们。

暂无评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注

Copyright © 2015 l 每日一贴