Python 实现某博客网站文章保存md格式生成pdf

  1. 导入第三方模块
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install parsel -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install tomd -i https://pypi.tuna.tsinghua.edu.cn/simple
  1. 环境配置
Pycharm开发环境 
python 版本 python3.7
Anconda 集成开发环境
  1. 代码分析
# 模块导入

import requests  #pip install requests

import parsel
import tomd
import  re

# 把文章保存成markdown格式

def download_article(article_url):
    response = requests.get(article_url)
    html = response.text
    #print(html)

    # 把网页变成css选择器
    # 解析网页数据
    sel = parsel.Selector(html)
    title = sel.css('.title-article::text').get()
    content = sel.css('article').get()

    text = tomd.Tomd(content).markdown
    text = re.sub('<a.*?a>',"",text)  #正则表达式
    # 提取文章的内容与格式
    # print(title)
    # print(content)

    with open(title + '.md',mode='w',encoding='utf-8') as f:
        f.write("#"+title)
        f.write(text)

# 博客地址u'r'l,填入即可
article_url = 'https://blog.csdn.net/weixin_44048823/article/details/90247052'

download_article(article_url)

效果

复制url 运行py文件

出现 >>> 表示已经完成下载

查看 文件夹里面markdown文件

markdwon to pdf

1.打开Typora 网站 https://www.typora.io/#
2.下载电脑操作系统对应的版本,并安装
3.打开下载的md文件


使用Typora打开md文件

对于可能的乱码,目前不会其他的,删除就可以了



博客地址https://lemonhubs.github.io/