site:url roborts.txt

搜索引擎赋予我们无穷的力量,可以依靠它找到很多我们想要的东西,比如为了满足好奇心会这样操作:

intitle:管理后台,百度中输入这段会搜索title中带有关键字为“管理后台”的网页,八九不离十是某某网站的后台登录页面。蜘蛛不区分网站的前后台,顺着链接爬了整个站。问题来了,如果不让蜘蛛爬到管理后台呢,网落上充斥着这样的答案robots.txt,没错网站根目录下设置rebots.txt可以设置哪些页面被蜘蛛爬到哪些不,robots.txt的配置请参考http://tool.chinaz.com/robots/,是否知道robots.txt已生效,在浏览器中输入http://域名/robots.txt能够访问直观看到配置文件即可。

不推荐使用robots.txt的方式,因为你能看到http://域名/robots.txt别人也一样能,这样就暴露了网站的隐私,有何安全可谈?

换个方式想想,为何不在网站后台的公用header.html中加入meta name="robots" content="noindex,nofollow",它和robots.txt一样作用,既达到我们保证管理后台不被蜘蛛爬取,还能有效保护网站信息。


(完)