爬虫的学习目录

1.爬虫原理与数据抓取
	1.1. (了解)通用爬虫和聚焦爬虫
	1.2.(复习)HTTP/HTTPS的请求与响应
	1.3. str和bytes的区别
	1.4. Requests简单使用
	1.5. Requests深入
	1.6. HTTP/HTTPS抓包工具-Fiddler
	1.7. 参考阅读:urllib模块的基本使用
	1.8. 参考阅读:urllib:GET请求和POST请求
	1.9. 参考阅读:urllib:Handler处理器和自定义Opener
	1.10. 参考阅读:编码故事
2.非结构化数据与结构化数据提取
	2.1. 正则表达式re模块
	2.2. 案例:使用正则表达式的爬虫
	2.3. XPath与lxml类库
	2.4. 案例:使用XPath的爬虫
	2.5. JSON模块与JsonPath
	2.6. 糗事百科案例
	2.7. 多线程爬虫案例
	2.8. 参考阅读:BeautifulSoup4 解析器
	2.9. 参考阅读:案例:使用bs4的爬虫
3.动态HTML处理和机器图像识别
	3.1. 动态HTML介绍
	3.2. Selenium与PhantomJS
	3.3. 案例一:网站模拟登录
	3.4. 案例二:动态页面模拟点击
	3.5. 机器视觉与Tesseract介绍
	3.6. 处理一些格式规范的文字
	3.7. 尝试对验证码进行机器识别处理
	3.8. 参考阅读:执行JavaScript语句
	3.9. 参考阅读:训练Tesseract
4.scrapy框架
	4.1. 配置安装
	4.2. 入门案例
	4.3. Scrapy Shell
	4.4. Item Pipeline
	4.5. Spider
	4.6. CrawlSpider
	4.7. Request/Response
	4.8. Downloader Middlewares
	4.9. Settings
5.scrapy实战项目
	5.1. (案例一)手机App抓包爬虫
	5.2. (案例二)阳光热线问政平台爬虫
	5.3. (案例三)新浪网分类资讯爬虫
	5.4. (案例四)Cosplay图片下载器爬虫
	5.5. (案例五)将数据保存在MongoDB中
	5.6. (案例六)三种scrapy模拟登陆策略
	5.7. 附:通过Fiddler进行手机抓包方法
6.scrapy-redis分布式组件
	6.1. 源码分析参考:Connection
	6.2. 源码分析参考:Dupefilter
	6.3. 源码分析参考:Picklecompat
	6.4. 源码分析参考:Pipelines
	6.5. 源码分析参考:Queue
	6.6. 源码分析参考:Scheduler
	6.7. 源码分析参考:Spider
7.scrapy-redis实战
	7.1. 源码自带项目说明
	7.2. 有缘网分布式爬虫项目1
	7.3. 有缘网分布式爬虫项目2
	7.4. 处理Redis里的数据
	7.5. 尝试改写新浪网分类资讯爬虫1
	7.6. 尝试改写新浪网分类资讯爬虫2
	7.7. IT桔子分布式项目1
	7.8. IT桔子分布式项目2

可选择的IDE和编辑器

工欲善其事,必先利其器:

  1. IDE:PyCharm、Spyder、Visual Studio等

  2. 编辑器:Vim、emacs、Atom等

可选择的Python版本

python3 Python3 中字符编码默认是Unicode,所以爬虫相关字符会更方便。同时我们所学习的内容都是在python3和python2中相同的,所以不用太在意所使用的python版本问题