媛心清烃

未归档 Python 学习笔记 094

未归档

个人学习心得(16) 小说片段(1) 报任安书(3) 行业测评(3) 题解(8)

/ 注册

Python 学习笔记 094

426 浏览 0 回复 2020-01-25

媛心清烃

+关注

本周学习内容 07

本次分享主题

自动爬取网页内容并保存为TXT 06

自动爬取小说

1.简单逻辑

1.1请求网页数据

1.2 Xpath提取章节内容相对地址&章节名

1.3 循环逐章处理数据

1.3.1 拼接章节绝对地址

1.3.2 Xpath得到小说章节内容

1.3.3 列表字符串转换

1.4 结果文件命名与写入

1.4.1 逐章写入

文件名为章节名文件内容为章节名+章节内容

1.4.2 整体写入

使用同一个文件名，a+方式写入文件内容

文件内容为章节名+章节内容不变

1.5 基础反爬机制

1.5.1 爬取50章之后等待0.5秒

1.5.2 爬起200章之后随机等待2~100s后继续

1.5.3 携带请求头（未用到）

1.6 其他功能

1.6.1 文件名非法排除功能

去除文件名中的非法字符，防止系统无法写入文件名导致程序中止退出

1.6.2 下载日志log文件写入功能

本质为txt文件的写入，后缀名命名为log就行

加入下载章节进度以及文件写入状态信息

下载异常可重新调用程序断点续传（未开发，可手动重新下载）

嗯，贴了逻辑就行，代码就不传了，比较简单，几个小时的事情~

记录CLosed

2020 Week 2

2020年1月12日14:46:13

举报

收藏

赞

评论加载中...