造成服务器封禁的三点主要原因(2)
时间:2012-02-01 13:42作者:上海网站建设 来源:http://www.seji.cn 点击:
解决方法:准确熟悉各搜索引擎蜘蛛,而搜索引擎使用的 IP 地址会随时发生变化,为确保能够准确识别各搜索引擎IP,您可以使用DNS反查方式来确定抓取来源的IP是否属于正规搜索引擎,防止误封。
三、保护性的无意偶然封禁
1、假如网站的访问量过大,超过自身负荷,服务器会根据自身负荷进行保护性的无意偶然封禁。这种封禁是短暂性的,只要访问量下降到服务器的承受范围之内,那么服务器就会正常工作。
2、还有一种情况是spider造成的,搜索引擎为了达到对目标资源较好的检索效果,蜘蛛需要对您的网站保持一定量的抓取。搜索引擎会根据服务器承受能力,网站质量,网站更新等综合因素来进行调整, 建立一个公道的站点抓取压力。但是会有一些例外,在压力控制不好的情况下,服务器会根据自身负荷进行保护性的无意偶然封禁。
解决方法:1、假如是访问量造成的压力,那么恭喜你,说明你的网站已经拥有可观的访问人数,我们就应该进级服务器,来知足不段增长的访问量。2、假如是spider造成的,我们可以采用如下方式来减轻spider对服务器产生的压力:A、利用robots文件,屏蔽掉不想被spider抓取的页面。B、采用nofollow标签,屏蔽不想被spider爬行的链接。C、页面中较长的CSS、JS代码移到外部文件。D、删减多余代码。应当留意的是,以上两种情况在返回的代码中尽量不要使用404,建议返回503(其含义是“Service Unavailable”)。这样spider会过段时间再来尝试抓取这个链接,假如那个时间站点空闲,那它就会被成功抓取了。
最后,但愿站长尽量保持站点的不乱,对于暂时不想被搜索引擎抓取的页面,使用准确的返回码告知搜索引擎,假如确实不想被搜索引擎抓取或者索引,可以写robots信息告知。