Python 实现某博客网站文章保存md格式生成pdf
- 导入第三方模块
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install parsel -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install tomd -i https://pypi.tuna.tsinghua.edu.cn/simple
- 环境配置
Pycharm开发环境
python 版本 python3.7
Anconda 集成开发环境
- 代码分析
# 模块导入
import requests #pip install requests
import parsel
import tomd
import re
# 把文章保存成markdown格式
def download_article(article_url):
response = requests.get(article_url)
html = response.text
#print(html)
# 把网页变成css选择器
# 解析网页数据
sel = parsel.Selector(html)
title = sel.css('.title-article::text').get()
content = sel.css('article').get()
text = tomd.Tomd(content).markdown
text = re.sub('<a.*?a>',"",text) #正则表达式
# 提取文章的内容与格式
# print(title)
# print(content)
with open(title + '.md',mode='w',encoding='utf-8') as f:
f.write("#"+title)
f.write(text)
# 博客地址u'r'l,填入即可
article_url = 'https://blog.csdn.net/weixin_44048823/article/details/90247052'
download_article(article_url)
效果
复制url 运行py文件
出现 >>> 表示已经完成下载
查看 文件夹里面markdown文件
markdwon to pdf
1.打开Typora 网站 https://www.typora.io/#
2.下载电脑操作系统对应的版本,并安装
3.打开下载的md文件
使用Typora打开md文件
对于可能的乱码,目前不会其他的,删除就可以了