信息泄漏之robots.txt泄漏

漏洞描述：

搜索引擎可以通过robots文件可以获知哪些页面可以爬取，哪些页面不可以爬取。Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯，如果robots.txt文件编辑的太过详细，反而会泄露网站的敏感目录或者文件，比如网站后台路径，从而得知其使用的系统类型，从而有针对性地进行利用。

测试方法：

1、一般用工具扫描即可例如：AWVS，工具爬虫扫描得到敏感文件的路径，从而找到robots文件；
2、想手工挖掘也可以，直接在域名后输入/robots.txt进行查看。

漏洞分析：

攻击者可通过发现robots.txt文件，收集网站的敏感目录或文件，从而有针对性的进行利用。

漏洞等级：

【低危】：robots.txt中存在allow和disallow的具体内容泄露敏感目录信息。

修复方案：

可根据实际情况，进行如下对应的修复：
1、 User-agent: * 这里的代表的所有的搜索引擎种类，*是一个通配符
2、 Disallow: / 这里定义是禁止爬寻站点所有的内容
3、 Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
4、 Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
5、 Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
6、 Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址
7、 Disallow: /.jpg禁止抓取网页所有的.jpg格式的图片
8、 Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
9、 Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
10、Allow: /tmp 这里定义是允许爬寻tmp的整个目录