本周学习内容 05


本次分享主题  

Xpath的学习笔记及相关心得 02

自动爬取网页内容并保存为TXT 04


1.程序流程  

1.1请求网页内容,将网页转化为etree格式字符串

.1.1.1 需导入lxml库  

import requests

res = requests.get("https://www.dawenxue.net/41556/369381.html")  #请求网页内容

#lxml 库 专门用来解析XML语言的库

from lxml import etree

#将网页转为XPath结构

#etree elements tree

res_xpath = etree.HTML(res.text)

#print(type(res_xpath),res_xpath)

1.2 Xpath标签简单解析

#提取网页的标题

    #Chrome copy xpath 操作  浏览器支持

    #绝对路径的提取

    #title标签的绝对路径为html/head/title

res_xpath.xpath("/html/head/title")   

#结果输出为 [<Element title at 0xed8a21c188>]  元素标签

#res_xpath.xpath("/html/title")    路径不能错,有错就会报空

res_xpath.xpath("///title") 

#省略中间标签为相对路径的提取

res_xpath.xpath("//title") 

#  //  提取任意子节点

1.3 Xpath标签简单解析 -2

res_xpath.xpath("//a/text()")

#提取所有的a标签  //提取任意标签  + a标签  + 文本解析

#// 后面为标签的名字

1.4 制定标签的属性提取制定的标签

res_xpath.xpath("//a[@href]/text()")

#加中括号[]+@指定属性 


哎呀,代码有点多,看的自己都有点儿乱,重新捋捋~

1.这一块介绍了Xpath的基本使用方法,主要从浏览器的F12检查标签中定位到需要提取的元素位置,然后复制出Xpath路径就可以提取出需要的元素了。

2.提取出来的元素,可以加对应的函数进行进一步提取

text() 提取文本

3.筛选及控制

3.1 绝对路径与相对控制  浏览器这就可以做到 不用理解太多

3.2 增加标签名字,提取制定的标签 

    准确定位

4.提取制定属性的标签


未完待续  

2020年1月11日23:39:21