robots.txt的位置在网站的根目录,可以以https://cccitu.com/robots.txt的形式在浏览器打开。robots.txt 的作用是告诉搜索引擎爬虫(例如谷歌、百度等)哪些页面或文件可以被爬取,哪些不可以。
1. robots.txt 文件的基本语法
- ⭕User-agent:指定爬虫名称。通常用*代表所有爬虫。
- ⭕Allow:指定允许爬虫抓取的 URL 路径。
- ⭕Disallow:指定禁止爬虫抓取的 UR L路径。
- ⭕Sitemap:指定网站的 Sitemap 文件的位置,帮助爬虫更好地了解网站结构。
2. robots.txt 文件配置示例
示例1:允许所有搜索引擎爬虫访问所有内容
User-agent: * Disallow:
示例2:禁止所有搜索引擎爬虫访问网站
User-agent: * Disallow: /
示例3:允许所有搜索引擎爬虫访问网站,但禁止抓取特定目录(例如:/private/)
User-agent: * Disallow: /private/
示例4:禁止特定搜索引擎爬虫(例如:Googlebot)访问网站
User-agent: Googlebot Disallow: /
示例5:禁止抓取特定文件类型(例如:.pdf文件)
User-agent: * Disallow: /*.pdf$
示例6:指定Sitemap文件位置
Sitemap: https://www.example.com/sitemap.xml
请注意,robots.txt 文件的规则是区分大小写的,且每条规则都必须独立一行。此外,虽然大多数搜索引擎遵循robots.txt文件的规则,但它们并无法完全阻止恶意爬虫抓取网站内容。
3. robots.txt 规则的优先级
在robots.txt文件中,规则的优先级受多种因素影响。以下是一些关于优先级的情况和示例:
示例1. 最长匹配原则:
当存在多个规则与URL相匹配时,遵循最长匹配原则。即最具体的规则优先级最高。
示例:
User-agent: * Disallow: /folder/ Allow: /folder/subfolder/
在这个例子中,/folder/subfolder/的优先级高于/folder/。因此,所有搜索引擎爬虫可以访问/folder/subfolder/,但不能访问其他/folder/下的内容。
示例2. 特定爬虫优先级高于通配符:
针对特定爬虫的规则优先级高于使用通配符的规则。
示例:
User-agent: Googlebot Disallow: /private/ User-agent: * Allow: /private/
在这个例子中,Googlebot爬虫被禁止访问/private/目录,但其他搜索引擎爬虫可以访问。
示例3. 顺序敏感:
当两个规则长度相同且存在冲突时,遵循先出现的规则。
示例:
User-agent: * Allow: /folder/ Disallow: /folder/
在这个例子中,允许所有搜索引擎爬虫访问/folder/,因为Allow规则先于Disallow规则出现。
4. robots.txt 规则生效测试
像百度搜索资源平台、必应站长等都支持通过输入 URL 来测试 robots.txt 规则禁止或允许抓取。
暂无评论
要发表评论,您必须先 登录