划水_小星

爬虫学习

python代码实例学习(2) 基础算法小结(5) 未归档(3) 题解(11)

/ 注册

全部文章 / 爬虫学习（共13篇）

爬虫第13节

爬取中国大学排名实例 import requests from bs4 import BeautifulSoup import bs4 import re def getHTMLText(url): try: kv = {"user-agent":&...

爬虫

2021-03-02

0 667

爬虫第12节

.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型，存储查找的结果。 name 对标签名称的检索字符串 attrs 对标签属性值的检索字符串，可标注属性检索 recursive 是否对子孙全部检索，默认True string <&...

爬虫

2021-03-01

0 709

爬虫第11节

信息提取的方法方法一完整解析信息的标记形式，再提取关键信息XML JSON YAML需要标记解释器，如bs4库标签树遍历优点：信息解析准确缺点：提取过程繁琐，过程慢方法二无视标记形式，直接搜索关键信息搜索对信息的文本查找函数即可优点：提取过程简介，速度较快缺点：提取结果准确性与信息内容相关 ...

爬虫

2021-03-01

0 654

爬虫第10节

信息标记的三种形式 XML 拓展标签语言example: <img src = " " >...</img> <img src = " " /> JSON 有类型的键值对example...

爬虫

2021-03-01

0 629

爬虫第9节

标签树的遍历标签树的下行遍历属性说明 .contents 子节点的列表，将<tag>所有儿子节点存入列表 .children 子节点的迭代类型，与.contends类似，用于循环遍历儿子节点 .descendants 子孙节点的迭代类型，包含所有子孙节点，用于循...

爬虫

2021-03-01

0 580

爬虫第8节

认识Beautiful Soup库 BeautifulSoup是解析、遍历、维护“标签树”的功能库。解析器使用方法条件 bs4的HTML解析器 BeautifulSoup(mk,'html.parser') 安装bs4库 lxml的HTML解析器 BeautifulSoup(m...

爬虫

2021-03-01

0 558

爬虫第7节

Beautiful Soup库安装如果只有IDLE，应该是需要安装的，打开CMD,输入以下命令 pip install beautifulsoup4如果使用的其他的，会自带，不用安装。简单运用 import requests from bs4 import BeautifulSoup #从be...

爬虫

2021-03-01

0 616

爬虫学习目录

1 requests库 requests库的基本方法获取页面返回对象的基本方法 Requests库的异常 HTTP协议对资源的操作 Requests请求访问中的13个控制参数网络爬取协议以及五个实例 2 Beautiful Soup库

爬虫

2021-02-28

0 552

爬虫第6节

网络爬取协议得到一个网页爬取的协议 import requests url = "https://www.baidu.com/robots.txt" r = requests.get(url) print(r.text)爬虫实例1 爬取一个固定网页的信息 #商品网页爬取 im...

爬虫

2021-02-28

0 835

爬虫第5节

requests.requset(method, url, **kwargs)method: 请求方式，对应get/put/post等7种方法。url: 拟获取页面的url链接。kwargs: 控制访问的参数，共13个 params: 字典或字节序列，作为参数增加到url种kv = {'key1'...

爬虫

2021-02-23

0 668