本周学习内容 07 


本次分享主题  

自动爬取网页内容并保存为TXT 06


自动爬取小说

1.简单逻辑

1.1请求网页数据

1.2 Xpath提取章节内容相对地址&章节名

1.3 循环逐章处理数据

1.3.1 拼接章节绝对地址

1.3.2 Xpath得到小说章节内容

1.3.3 列表字符串转换

1.4 结果文件命名与写入

1.4.1 逐章写入

文件名为章节名  文件内容为章节名+章节内容

1.4.2 整体写入

使用同一个文件名,a+方式写入文件内容  

文件内容为章节名+章节内容 不变

1.5 基础反爬机制

1.5.1 爬取50章之后等待0.5秒 

1.5.2 爬起200章之后随机等待2~100s后继续

1.5.3 携带请求头(未用到)

1.6 其他功能

1.6.1 文件名非法排除功能 

去除文件名中的非法字符,防止系统无法写入文件名导致程序中止退出

1.6.2 下载日志log文件写入功能

本质为txt文件的写入,后缀名命名为log就行

加入下载章节进度以及文件写入状态信息

下载异常可重新调用程序断点续传(未开发,可手动重新下载)


嗯,贴了逻辑就行,代码就不传了,比较简单,几个小时的事情~


记录CLosed 

2020 Week 2

2020年1月12日14:46:13