本次项目主要是爬取某论坛网站
明确目标
1.帖子
2.回答
3.用户信息(如果抓取用户,通过粉丝和关注进行抓取)
抓取策略
全站抓取策略:通过herf链接进行抓取
分析抓取网站的数据构成,避免出现循环,分散的抓取
页面是否动态
一般都是静态页面,详细见
https://www.cnblogs.com/bluesungz/p/5955170.html