划水_小星

分类

python代码实例学习(2) 基础算法小结(5) 未归档(3) 爬虫学习(14) 题解(11)

/ 注册

全部文章（共34篇）

单调栈

单调栈是一种和单调队列类似的数据结构。单调队列主要用于解决滑动窗口问题，单调栈则主要用于解决NGE问题（Next Greater Element），也就是，对序列中每个元素，找到下一个比它大的元素。（当然，“下一个”可以换成“上一个”，“比它大”也可以换成“比他小”，原理不变。）我们维护...

单调栈

2021-03-16

1 850

ST表

ST表（Sparse Table，稀疏表）是一种简单的数据结构，主要用来解决RMQ（Range Maximum/Minimum Query，区间最大/最小值查询）问题。 //进行预处理，计算区间最大值 int f[MAXN][21]; // 第二维的大小根据数据范围决定，不小于log(MAXN) f...

ST表

2021-03-15

0 633

爬虫第13节

爬取中国大学排名实例 import requests from bs4 import BeautifulSoup import bs4 import re def getHTMLText(url): try: kv = {"user-agent":&...

爬虫

2021-03-02

0 667

爬虫第12节

.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型，存储查找的结果。 name 对标签名称的检索字符串 attrs 对标签属性值的检索字符串，可标注属性检索 recursive 是否对子孙全部检索，默认True string <&...

爬虫

2021-03-01

0 709

爬虫第11节

信息提取的方法方法一完整解析信息的标记形式，再提取关键信息XML JSON YAML需要标记解释器，如bs4库标签树遍历优点：信息解析准确缺点：提取过程繁琐，过程慢方法二无视标记形式，直接搜索关键信息搜索对信息的文本查找函数即可优点：提取过程简介，速度较快缺点：提取结果准确性与信息内容相关 ...

爬虫

2021-03-01

0 654

爬虫第10节

信息标记的三种形式 XML 拓展标签语言example: <img src = " " >...</img> <img src = " " /> JSON 有类型的键值对example...

爬虫

2021-03-01

0 629

爬虫第9节

标签树的遍历标签树的下行遍历属性说明 .contents 子节点的列表，将<tag>所有儿子节点存入列表 .children 子节点的迭代类型，与.contends类似，用于循环遍历儿子节点 .descendants 子孙节点的迭代类型，包含所有子孙节点，用于循...

爬虫

2021-03-01

0 580

爬虫第8节

认识Beautiful Soup库 BeautifulSoup是解析、遍历、维护“标签树”的功能库。解析器使用方法条件 bs4的HTML解析器 BeautifulSoup(mk,'html.parser') 安装bs4库 lxml的HTML解析器 BeautifulSoup(m...

爬虫

2021-03-01

0 558

爬虫第7节

Beautiful Soup库安装如果只有IDLE，应该是需要安装的，打开CMD,输入以下命令 pip install beautifulsoup4如果使用的其他的，会自带，不用安装。简单运用 import requests from bs4 import BeautifulSoup #从be...

爬虫

2021-03-01

0 616

爬虫学习目录

1 requests库 requests库的基本方法获取页面返回对象的基本方法 Requests库的异常 HTTP协议对资源的操作 Requests请求访问中的13个控制参数网络爬取协议以及五个实例 2 Beautiful Soup库

爬虫

2021-02-28

0 552