Python 学习笔记 092

本周学习内容 05

本次分享主题

Xpath的学习笔记及相关心得 02

自动爬取网页内容并保存为TXT 04

1.程序流程

1.1请求网页内容，将网页转化为etree格式字符串

.1.1.1 需导入lxml库

import requests

res = requests.get("https://www.dawenxue.net/41556/369381.html") #请求网页内容

#lxml 库专门用来解析XML语言的库

from lxml import etree

#将网页转为XPath结构

#etree elements tree

res_xpath = etree.HTML(res.text)

#print(type(res_xpath),res_xpath)

1.2 Xpath标签简单解析

#提取网页的标题

#Chrome copy xpath 操作浏览器支持

#绝对路径的提取

#title标签的绝对路径为html/head/title

res_xpath.xpath("/html/head/title")

#结果输出为 [<Element title at 0xed8a21c188>] 元素标签

#res_xpath.xpath("/html/title") 路径不能错，有错就会报空

res_xpath.xpath("///title")

#省略中间标签为相对路径的提取

res_xpath.xpath("//title")

# // 提取任意子节点

1.3 Xpath标签简单解析 -2

res_xpath.xpath("//a/text()")

#提取所有的a标签 //提取任意标签 + a标签 + 文本解析

#// 后面为标签的名字

1.4 制定标签的属性提取制定的标签

res_xpath.xpath("//a[@href]/text()")

#加中括号[]+@指定属性

哎呀，代码有点多，看的自己都有点儿乱，重新捋捋~

1.这一块介绍了Xpath的基本使用方法，主要从浏览器的F12检查标签中定位到需要提取的元素位置，然后复制出Xpath路径就可以提取出需要的元素了。

2.提取出来的元素，可以加对应的函数进行进一步提取

text() 提取文本

3.筛选及控制

3.1 绝对路径与相对控制浏览器这就可以做到不用理解太多

3.2 增加标签名字，提取制定的标签

准确定位

4.提取制定属性的标签

未完待续

2020年1月11日23:39:21