爬虫的学习目录
1.爬虫原理与数据抓取
1.1. (了解)通用爬虫和聚焦爬虫
1.2.(复习)HTTP/HTTPS的请求与响应
1.3. str和bytes的区别
1.4. Requests简单使用
1.5. Requests深入
1.6. HTTP/HTTPS抓包工具-Fiddler
1.7. 参考阅读:urllib模块的基本使用
1.8. 参考阅读:urllib:GET请求和POST请求
1.9. 参考阅读:urllib:Handler处理器和自定义Opener
1.10. 参考阅读:编码故事
2.非结构化数据与结构化数据提取
2.1. 正则表达式re模块
2.2. 案例:使用正则表达式的爬虫
2.3. XPath与lxml类库
2.4. 案例:使用XPath的爬虫
2.5. JSON模块与JsonPath
2.6. 糗事百科案例
2.7. 多线程爬虫案例
2.8. 参考阅读:BeautifulSoup4 解析器
2.9. 参考阅读:案例:使用bs4的爬虫
3.动态HTML处理和机器图像识别
3.1. 动态HTML介绍
3.2. Selenium与PhantomJS
3.3. 案例一:网站模拟登录
3.4. 案例二:动态页面模拟点击
3.5. 机器视觉与Tesseract介绍
3.6. 处理一些格式规范的文字
3.7. 尝试对验证码进行机器识别处理
3.8. 参考阅读:执行JavaScript语句
3.9. 参考阅读:训练Tesseract
4.scrapy框架
4.1. 配置安装
4.2. 入门案例
4.3. Scrapy Shell
4.4. Item Pipeline
4.5. Spider
4.6. CrawlSpider
4.7. Request/Response
4.8. Downloader Middlewares
4.9. Settings
5.scrapy实战项目
5.1. (案例一)手机App抓包爬虫
5.2. (案例二)阳光热线问政平台爬虫
5.3. (案例三)新浪网分类资讯爬虫
5.4. (案例四)Cosplay图片下载器爬虫
5.5. (案例五)将数据保存在MongoDB中
5.6. (案例六)三种scrapy模拟登陆策略
5.7. 附:通过Fiddler进行手机抓包方法
6.scrapy-redis分布式组件
6.1. 源码分析参考:Connection
6.2. 源码分析参考:Dupefilter
6.3. 源码分析参考:Picklecompat
6.4. 源码分析参考:Pipelines
6.5. 源码分析参考:Queue
6.6. 源码分析参考:Scheduler
6.7. 源码分析参考:Spider
7.scrapy-redis实战
7.1. 源码自带项目说明
7.2. 有缘网分布式爬虫项目1
7.3. 有缘网分布式爬虫项目2
7.4. 处理Redis里的数据
7.5. 尝试改写新浪网分类资讯爬虫1
7.6. 尝试改写新浪网分类资讯爬虫2
7.7. IT桔子分布式项目1
7.8. IT桔子分布式项目2
可选择的IDE和编辑器
工欲善其事,必先利其器:
-
IDE:PyCharm、Spyder、Visual Studio等
-
编辑器:Vim、emacs、Atom等
可选择的Python版本
python3 Python3 中字符编码默认是Unicode,所以爬虫相关字符会更方便。同时我们所学习的内容都是在python3和python2中相同的,所以不用太在意所使用的python版本问题