
用robots.txt探索Google Baidu隐藏的秘密
发布时间:2006-10-11 11:53:13 来源:驱动之家 网友评论 0 条搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。但是,如果网站的某些信息不想被别人搜索到,可以创建一个纯文本文件robots.txt,放在网站根目录下。这样,搜索机器人会根据这个文件的内容,来确定哪些是允许搜寻的,哪些是不想被看到的。
有趣的是,这种特性往往用来作为参考资料,猜测网站又有什么新动向上马,而不想让别人知道。例如通过分析Google的robots.txt变化来预测Google将要推出何种服务。
有兴趣的读者可以看一下Google的robots.txt文件,注意到前几行就有“Disallow: /search”,而结尾新加上了“Disallow: /base/s2”。
现在来做个测试,按照规则它所隐藏的地址是http://www.Google.com/base/s2,打开之后发现Google给出了一个错误提示:“服务器遇到一个暂时性问题不能响应您的请求,请30秒后再试。”

但是把s2最后的数字换成1、3或者别的什么数字的时候,错误提示又是另一个样子:“我们不知道您为什么要访问一个不存在的页面。”

很显然“/base/s2”是一个特殊的页面,鉴于Google曾表示过今年的主要焦点是搜索引擎,我们推测一下,所谓的“s2”是否表示“search2”,也就是传说中的第二代搜索引擎?
推荐阅讯
- Google是我亲戚
- 搜索引擎公关策略:关键词竟价排名窍门
- 百度的搜索排名原则
- 全面解析韩国商业网站的设计
- 搜索让世界杯更有滋味
- 想做站长吗?站长必须了解的基础常识!
- Google搜索结果下怎么有更多链接?
- Google排名研究不是简单的网页优化
- 建站心得:网站规划书的写作规范
- 网站做友情链接 谨防几种骗局
阅读排行
- 1.针对搜索引擎的页面优化一:关键词优化
- 2.网站的搜索引擎优化(SEO)九大秘法
- 3.ALEXA站长全攻略
- 4.一个网站的灵魂 打造完美网站的奇招巧技
- 5.让百度重新收录你的网站的有效方法
- 6.休闲一下:我用Google抓拉登的全过程
- 7.建站基础 将网页上传到服务器
- 8.Google Office轮廓愈加清晰 成形指日可待
- 9.10条优秀的网站设计经验
- 10.Google AdSense推收益分享新模式
专题教程
- 大话G游 专题:手机病毒揭密
- ARP攻击防范与解决方案 路由故障处理手册
- Picasa中文版_Picasa教程 专题:清除流氓软件
- Firefox专题 seo搜索引擎优化专区
- 重装Windows必知的事情 装机之必备软件大行动
病毒专杀栏
