什么是机器人,爬虫,蜘蛛爬虫?

查看: 17|回复: 0
获得蜘蛛、机械人和爬虫的关注
头像被屏蔽
主题交易A5积分
提示: 作者被禁止或删除 内容自动屏蔽
安全、高效、快捷 ※
关于A5交易
(中介专线:2)
服务时间:周一到周日8:00-23:30
随时随地上A5站长网!
兄弟网站:|||||||
Powered by重要改版通知2010年12月James Qi的个人网站更换至Drupal平台,原MediaWiki平台内容依然保留。2011年1月开始关闭老版网站的留言和注册功能。新版网站请点击查看:。
出自James Qi
您当前所在的位置:
& 常见搜索引擎蜘蛛(爬虫、机器人)IP地址段
-- 日 (二) 22:01 (CST)
  近一年来,网站多次出现负载超高的情况,严重的时候甚至导致根本无法访问,以前还以为是有无聊的人进行攻击,后来仔细研究发现基本上都是一些设计不良的搜索引擎蜘蛛(又称搜索引擎爬虫、搜索引擎机器人)频繁到访造成的。
  后来采取了一些办法,例如修改Robots.txt、增加Squid缓存、关闭计数器和全文检索等办法,总体来说有一些改善,但偶尔还是会遇到突发性负载增高的情况,最后不得不还是采取封IP的办法来保持网站正常运行。
  但封IP唯一担心的就是将搜索引擎蜘蛛拒之门外后,得不到相应的收录从而影响网站流量,所以封IP之前往往要查一查是否属于哪个搜索引擎抓取服务器群的IP地址段。于是在网上查了一些资料,现在收集整理如下:
蜘蛛名称IP地址
Baiduspider
202.108.11.*
220.181.32.*
58.51.95.*
60.28.22.*
61.135.162.*
61.135.163.*
61.135.168.*
202.108.7.215
202.108.7.220
202.108.7.221
Sogou web spider
219.234.81.*
220.181.61.*
203.208.60.*
Yahoo! Slurp
202.160.181.*
72.30.215.*
Yahoo ContentMatch Crawler
119.42.226.*
119.42.230.*
Sogou-Test-Spider
220.181.19.103
220.181.26.122
38.99.44.104
64.34.251.9
Yahoo! Slurp China
202.160.178.*
Sosospider
124.115.0.*
CollapsarWEB qihoobot
221.194.136.18
202.179.180.45
Sogou Orion spider
220.181.19.106
220.181.19.74
Sogou head spider
220.181.19.107
216.145.5.42
64.246.165.160
Yanga WorldSearch Bot v
77.91.224.19
91.205.124.19
baiduspider-mobile-gate
220.181.5.34
61.135.166.31
208.96.54.70
ia_archiver
209.234.171.42
65.55.104.209
65.55.209.86
65.55.209.96
sogou in spider
220.181.19.216
  以上内容将会逐步添加、修改,希望对遇到同样问题的朋友有帮助。
  如果您也知道一些以上没有记录的IP地址段,欢迎留言,谢谢!
标签:、、、、。
相关内容:
别名:、、。
关于“常见搜索引擎蜘蛛(爬虫、机器人)IP地址段”的留言:
目前暂无留言扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
获得蜘蛛,机器人和爬虫的关注.doc
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口如何获得得百度蜘蛛、谷歌机器人和雅虎爬虫的关注 - A5站长网
当前位置:
如何获得得百度蜘蛛、谷歌机器人和雅虎爬虫的关注
00:59&&来源:&
  蜘蛛、机器人和爬虫是你的朋友。如果要进行SEO,你不只需要喜欢它们,同时你真的需要特意地把它们吸引到你的网站上来。
  在SEO中,蜘蛛、机器人和爬虫大体上讲的是同一种东西,但是别过分担忧&它们都没有腿和触角。所以,让我们统一用&爬虫(crawler)&这个词来称呼它们。请牢记,有时你需要吸引这些机器人,或者把你的网站伪装成&蜘蛛诱饵&。这都属于同一个原则。 那么,什是爬虫,为什么我们要把它请到我的网站上来呢。 爬虫是一种程序,或者是一段自动化的脚本(经常被称为 bot,即 robot的缩写),它在网上不停辛勤奔跑到各个URL上去。爬虫通过它们所浏览的网页上面的链接从一个URL爬到另一个URL。
  主流搜索引擎接连不断地将它们的爬虫派出去浏览广阔的互联网。爬虫首先找到各个页面,然后把页面上的文本和代码复制并储存在它们巨大的索引服务器上,这个过程叫做爬行(spidering)。这个巨大的索引,实际上就是一个包含搜索引擎爬虫可以成功访问到的所有网站页面的数据库。该索引被用来作为当你搜索时,可以非常快速地得到一个结果的仓库。当你在一个例如Google的搜索引擎上输入一个搜索词并提交,你 实际搜索的是搜索引擎所索引的全部内容,而不是当时互联网的实际内容。 当然,网页会变化。有时,网页和网站的变化周期非常短。除此以外,新的网站和网页随时都在快速出现。这也是为什么爬虫始终都在那里不停地爬行,一遍又一遍地浏览网页,并且建立和更新搜索引擎的索引信息。 搜索引擎索引库里面的内容是爬虫浏览网页时看到的内容。爬虫所看到的内容可能和一般的访问者看到的大相径庭。如果你想查看爬虫看到的某个网页的内容是什么,你可以使用 IE浏览器来访问它,然后按下Ctrl-A组合键,并浏览复制下来的内容(如果是Mac系统,则可以使用Apple-U组合键)。或者,你可以借助 Google,点击搜索结果下面的&网页快照&链接,就可以看到爬虫最近对这个页面做的快照了。首先也是最重要的一点是,爬虫将它们爬过的每个页面的字和词组合起来。它们索引文本和链接。当你在搜索框中输入一个搜索词时,搜索引擎尽量精确地找出和搜索词组最匹配的网页。 不同的搜索引擎有它们独具特色的爬虫,和你所期料的一样,它们并不是都以完全一样的方式来运行。有些爬虫获取页面上全部的内容,而有些可能只是对其中的某些部分感兴趣。大部分爬虫都认为,页面的标题以及靠近页面顶部的内容,比远在页面下面的内容更重要。爬虫在爬行网站时经常遇到障碍并越过这些障碍,比如说,在网站上,没有让它们继续爬行的链接,或者它们遇到了由怪异技术或代码造成的问题。爬虫还可能由于遇到技术阻碍,而进入陷阱,从而使它们不能轻易完成工作。 所以,任何SEO工作的第一步的重要部分都是让爬虫更容易发现和爬行你的网站。如果你的网站没有被爬虫爬过,它们也就不会建立关于你网站的搜索引擎索引。如果网页没有在索引当中,搜索者也不会在搜索引擎中找到它,因为搜索引擎认为那个页面根本就不存在。与此同时,搜索者可能找到其他网页,并且很有可能是你的竞争对手的网页。 链接和精心设计的站点结构是建立个体网页、网站栏目与其他站内网页和栏目之间关系的桥梁。这将给爬虫提供清晰的爬行道路。
  创建sitemap
  建立 sitemap 是帮助搜索引擎爬虫抓取网站的最简单的方法之一。sitemap是一个给爬虫提供网站内容 URL清单&至少是网站拥有者希望爬虫看到的地址清单的文件(通常是 XML 格式)。 sitemap 中还可以包括针对每个URL的附加信息,例如指定页面的最近更新时间、更新频率,以及相对于网站上其他内容的重要度(举例来说,首页比&联系我们&页面更为重要)。sitemap 所提供的信息可以帮助搜索引擎爬虫更智能地抓取网站。Google、MSN、Yahoo!以及 Ask 都接受网站拥有者提交 sitemap 的请求。然而需要注意的是,没有任何一家公司保证sitemap所提交的URL都会被抓取或者被索引。 sitemap 对于那些提供不容易被直接浏览到的信息的网站来说十分有用,例如有些站点存储了大量的档案或者信息数据库,这些信息是通过用户检索才能看到的。请记住,爬虫只是根据链接来抓取信息,而通常情况下,这样的信息是缺乏链接指向的。
  文章来源: 转载请注明地址
作者:问二
延伸阅读:关键词:
站长杂谈 草根站长信息中心}

我要回帖

更多关于 蜘蛛爬虫 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信