信息提取的方法

方法一

完整解析信息的标记形式,再提取关键信息
XML JSON YAML
需要标记解释器,如bs4库标签树遍历
优点:信息解析准确
缺点:提取过程繁琐,过程慢

方法二

无视标记形式,直接搜索关键信息
搜索
对信息的文本查找函数即可
优点:提取过程简介,速度较快
缺点:提取结果准确性与信息内容相关

最后要使用的方法

将两者结合起来
example:
提取HTML中所有url链接

思路:
1. 搜索到所有的a标签
2. 解析a标签的格式,提取href后的链接内容

#采用之前的demo例子
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,'html.parser')
for link in soup.find_all('a')
    print(link.get('href'))