划水_小星
划水_小星
全部文章
爬虫学习
python代码实例学习(2)
基础算法小结(5)
未归档(3)
题解(11)
归档
标签
去牛客网
登录
/
注册
划水_小星的博客
加油!
全部文章
/ 爬虫学习
(共13篇)
爬虫第13节
爬取中国大学排名实例 import requests from bs4 import BeautifulSoup import bs4 import re def getHTMLText(url): try: kv = {"user-agent":&...
爬虫
2021-03-02
0
566
爬虫第12节
.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型,存储查找的结果。 name 对标签名称的检索字符串 attrs 对标签属性值的检索字符串,可标注属性检索 recursive 是否对子孙全部检索,默认True string <&...
爬虫
2021-03-01
0
605
爬虫第11节
信息提取的方法 方法一 完整解析信息的标记形式,再提取关键信息XML JSON YAML需要标记解释器,如bs4库标签树遍历优点:信息解析准确缺点:提取过程繁琐,过程慢 方法二 无视标记形式,直接搜索关键信息搜索对信息的文本查找函数即可优点:提取过程简介,速度较快缺点:提取结果准确性与信息内容相关 ...
爬虫
2021-03-01
0
554
爬虫第10节
信息标记的三种形式 XML 拓展标签语言example: <img src = " " >...</img> <img src = " " /> <!-- ... -->JSON 有类型的键值对example...
爬虫
2021-03-01
0
524
爬虫第9节
标签树的遍历 标签树的下行遍历 属性 说明 .contents 子节点的列表,将<tag>所有儿子节点存入列表 .children 子节点的迭代类型,与.contends类似,用于循环遍历儿子节点 .descendants 子孙节点的迭代类型,包含所有子孙节点,用于循...
爬虫
2021-03-01
0
484
爬虫第8节
认识Beautiful Soup库 BeautifulSoup是解析、遍历、维护“标签树”的功能库。 解析器 使用方法 条件 bs4的HTML解析器 BeautifulSoup(mk,'html.parser') 安装bs4库 lxml的HTML解析器 BeautifulSoup(m...
爬虫
2021-03-01
0
442
爬虫第7节
Beautiful Soup库 安装 如果只有IDLE,应该是需要安装的,打开CMD,输入以下命令 pip install beautifulsoup4如果使用的其他的,会自带,不用安装。 简单运用 import requests from bs4 import BeautifulSoup #从be...
爬虫
2021-03-01
0
473
爬虫学习目录
1 requests库 requests库的基本方法 获取页面返回对象的基本方法 Requests库的异常 HTTP协议对资源的操作 Requests请求访问中的13个控制参数 网络爬取协议以及五个实例 2 Beautiful Soup库
爬虫
2021-02-28
0
446
爬虫第6节
网络爬取协议 得到一个网页爬取的协议 import requests url = "https://www.baidu.com/robots.txt" r = requests.get(url) print(r.text)爬虫实例1 爬取一个固定网页的信息 #商品网页爬取 im...
爬虫
2021-02-28
0
684
爬虫第5节
requests.requset(method, url, **kwargs)method: 请求方式,对应get/put/post等7种方法。url: 拟获取页面的url链接。kwargs: 控制访问的参数,共13个 params: 字典或字节序列,作为参数增加到url种kv = {'key1'...
爬虫
2021-02-23
0
576
首页
上一页
1
2
下一页
末页