使用robots.txt文件来控制对网站的索引 |
编辑:八桂网讯 时间:2009/5/1 浏览:1631 次 |
|
八桂网讯 认为创建robots.txt文件的最简单的方式就是使用网管工具中的robots.txt工具.一旦创建了文件,就可以使用分析robots.txt工具来确认是否一切运行正常。 当创建了robots.txt 文件后,将它命名为robots.txt并保存到域名下面。这就是搜索引擎程序将检查文件的地方,如果保存到其它地方,将可能找不到。 也可以自己手工创建robots.txt 文件,使用任何文本编辑器就可以. 应该是一个ASCII类型的文本文件,而不是HTML文件,另外文件应该用小写字母。 句法规则 最简单的robots.txt 文件有两个主要的规则: User-agent: 应用到robot上的规则 Disallow: 想阻止的URL 以上的两点是文件当中的条目,也可以添加一些其它的条目进来. 用户规范下应该放哪些呢? User-agent是一个特定的搜索引擎机器程序.在web robots database 那列有很多的常见的robots。可以设置一个条目将其应用到特定的robots(通过列名的方式),或者也可以应用到所有的此类robots 看如下例子: User agent: *Google 使用几个不同的robots 程序.(user-agents),Google 所使用的进行网页搜索的robots 是Googlebot。其它的一些bots 例如Googlebot-Mobile 和Googlebot-Image 也遵循哪些设置给Googlebot 的规则, 但是你也可以给他们设置其它的一些单独的规则。 Disallow 下面该列出哪些呢? Disallow 条目下列出那些你想阻止的页面,可以列出一个特定的URL 或者是一个样式. 此类条目以前向划线(/)开始. 阻止正个站点,使用前向划线. Disallow: / 阻止某个目录或者此目录下的所有内容, 在目录名后面加前向划线。 阻止一个页面,列出此页面. 如: Disallow: /private_file.html 从Google图片搜索中移除某个特定的图片 添加如下: User-agent: Googlebot-Image Disallow: /images/dogs.jpg 从Google图片搜索中移除所有的图片,如下: User-agent: Googlebot-Image Disallow: / 阻止某个特定类型的文件(如gif文件),使用如下: User-agent: Googlebot Disallow: /*.gif$ 阻止站点上某些页面被搜索引擎收录,但是仍然显示站点投放广告, 除了Mediapartners-Google之外的所有其他bot. 这可以阻止页面在搜索引擎的搜索结果中显示出来,但是mediapartners-Google bot 程序来分析页面从而决定哪些广告可以显示。mediapartners-Google bot 不同其它的Google user-agents共享页面.比如: User-agent: * Disallow: /folder1/ User-agent: Mediapartners-Google Allow: /folder1/ 注意一点就是检测程序都是很敏感的. 比如说过, Disallow: /junk_file.asp将可能阻止http://www.example.com/junk_file.asp,但可能允许http://www.example.com/Junk_file.asp 这个页面的显示. 样式匹配 Googlebot (but not all search engines) respects some pattern matching. Googlebot(但并不是所有的搜索引擎)尊重一些样式匹配. 匹配一系列的字符,使用型号符(*) 比如,阻止所有的以private开头的子目录 User-agent: Googlebot Disallow: /private*/ 阻止所有的以private包含问号的子目录( 或更具体,所有的以你的域名开头的地址,接下来是字符串,然后是问号,又接着字符串) User-agent: Googlebot Disallow: /*? 指定对URL末尾的匹配,使用$. 比如, 阻止以xls结尾的URL User-agent: Googlebot Disallow: /*.xls$ 也可以配合使用allow指令来使用这个样式匹配. 比如: 如果一个? 表示某个session ID,你将可能想除去所有的包含它的地址以确保Googlebot 不去收录重复的页面. 但是以问号(?)结尾的文件可能就是你想包含的页面.在这种情况下,你可以按如下设置robots.txt 文件: User-agent: * Allow: /*?$ Disallow: /*? Disallow: / *? 指令将会阻止所有的包含? 的网页(更具体点,那些以你的域名开头的,然后是其它字符串,接下来是问号和其它字符串) The Allow: /*?$ 指令允许所有的以?结尾的页面.(更具体点,以域名开头的,接字符串再加问号结尾的)
|