弓长九日
弓长九日
全部文章
爬虫
CDQ(1)
codeforces(1)
DP(9)
SSM框架(3)
《算法竞赛进阶指南》杂谈(14)
二分(1)
分块(1)
动态规划(1)
图论(11)
基本算法(5)
字符串(6)
差分(2)
并查集(2)
思维(18)
搜索(7)
数学(16)
数据结构(17)
未归档(128)
树型结构(4)
树套数(1)
模拟(2)
系统配置记录(1)
线段树(8)
计算机网络(2)
贪心(2)
面试(3)
题解(4)
题集(45)
归档
标签
去牛客网
登录
/
注册
弓长九日的博客
全部文章
/ 爬虫
(共6篇)
python 爬虫入门 练习六 (ajax + json) 异步加载的网站
ajax 滚动页面的数据获取 一般的 刚开始我们获得页面不全 而且 页面随着滚动不断加载新的 我们考虑 找到提供数据的 js文件 (幸好没有加密啊 加密还得学orz) https://www.guokr.com/scientific/ 步骤 https://www.guokr.com/scie...
2019-11-18
0
0
python 爬虫入门 练习五 ***ip的获取
获得西祠*** https://www.xicidaili.com/nn/1 任务 获得 *** 遇到的问题 //*[@id=“ip_list”]/tbody/tr[2]/td[2] chrome 浏览器 直接获得xpath 但是运行后获得是空列表 处理方式 浏览器会对html文本进行一定...
2019-11-16
0
0
python 爬虫入门 练习四 selenium 保存登录cookie到本地反复使用
本次用到的主要是 selenium chrome 模拟 这个真的是太慢了 其实存下cookie 用 request 也是可以的 本次遇到的问题 发生异常: InvalidCookieDomainException Message: invalid cookie domain Inva...
2019-11-12
0
0
python爬虫入门 练习三 登录无加密网站 模拟登录 (post提交)
前言 作为requests.post的练习 本次就比较简单了 代码比之前的不知道少了多少23333 这次只是选了一个登录只是简单的 post 账户名和密码 的论坛 知乎和其他网站现在都有要用打某个页面下载后某个json文件的关键值取作hash 验证是不是机器人醉了 目前还没有学会 正文 这里我...
2019-11-11
0
0
python爬虫入门 练习二 静态页面图片爬 (adnmb)
与前文差不多 1.前置知识 html一些知识 python基本语法 简单的一些爬虫库api调用 2.所用到的包 requests bs4 import BeautifulSoup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Pytho...
2019-11-10
0
0
python爬虫入门 练习一 静态页面文本爬取 (html内中文乱码问题处理)
1.前置知识 html一些知识 python基本语法 简单的一些爬虫库api调用 2.所用到的包 requests bs4 import BeautifulSoup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库(可以理解为...
2019-11-09
1
0