Aimmon
Aimmon
全部文章
分类
Ambari(1)
CDH(1)
Docker(1)
Hadoop(5)
Hbase(1)
HDP(2)
HUE(1)
Java 不可不知(2)
Java_环境变量(5)
Java并发编程(1)
JVM(10)
Kafka(1)
Linux(10)
Mac_Vmware(3)
Maven(2)
MySQL(2)
Presto(1)
Python(77)
Scala(5)
Spark(12)
Sqoop(1)
Storm(4)
Superset(3)
TensorFlow(3)
VM(2)
Zabbix(1)
zookeeper(4)
工作记录(16)
数据结构和算法(5)
未归档(1)
机器学习(1)
益智&DIY(5)
归档
标签
去牛客网
登录
/
注册
Aimmon的博客
伊人如梦
全部文章
(共189篇)
Python学习笔记--Python 爬虫入门 -17-3 cookie+session (人人网的爱恨情仇)
- cookie & session - 由于http协议的无记忆性,人们为了弥补这个缺憾,所采用的一个补充协议 - cookie是发放给用户(即http浏览器)的一段信息,session是保存在服务器上的对应的另一半信息,用来记录用户信息 - cookie和ses...
2022-05-17
0
0
Python学习笔记--Python 爬虫入门 -17-4 SSL (12306 的故事)
- SSL - SSL证书就是指遵守SSL安全套阶层协议的服务器数字证书(SercureSocketLayer) - 美国网景公司开发 - CA(CertifacateAuthority)是数字证书认证中心,是发放,管理,废除数字证书的收信人的第三方机构 - 遇到不信...
2022-05-17
0
0
Python学习笔记--Python 爬虫入门 -17-5 js 加密 (和有道词典的瓜葛)
- js加密 - 有的反爬虫策略采用js对需要传输的数据进行加密处理(通常是取md5值) - 经过加密,传输的就是密文,但是 - 加密函数或者过程一定是在浏览器完成,也就是一定会把代码(js代码)暴露给使用者 - 通过阅读加密算法,就可以模拟出加密过程,从而达到破解...
2022-05-17
0
0
Python学习笔记--Python 爬虫入门 -17-6 ajax (豆ban,情有独钟)
- ajax - 异步请求 - 一定会有url,请求方法,可能有数据 - 一般使用json格式 - 案例,爬去豆瓣电影, 案例v20 """ 豆瓣电影 """ from urllib import re...
2022-05-17
0
0
Python学习笔记--Python 爬虫入门 -17-7 requests 献给人类
# Requests-献给人类 - HTTP for Humans,更简洁更友好 - 继承了urllib的所有特征 - 底层使用的是urllib3 - 开源地址: https://github.com/requests/requests - 中文文档: http://docs.python-requ...
2022-05-17
0
0
Python学习笔记--Python 爬虫入门 -17-8 正则,xml+xpath+lxml
# 页面解析和数据提取 - 结构数据: 先有的结构,在谈数据 - JSON文件 - JSON Path - 转换成Python类型进行操作(json类) - XML文件 - 转换成python类型(xmltodict) ...
2022-05-17
0
0
Python学习笔记--Python 爬虫入门 -17-9 BeautifulSoup4
# CSS选择器 BeautifulSoup4 - 现在使用BeautifulSoup4 - 官方文档 http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ - 几个常用提取信息工具的比较: - 正则: 很快,不好用,不许安装 - ...
2022-05-17
0
0
Python学习笔记--Python 爬虫入门 -17-10 动态数据的采集 Selenium+PhantomJS
# 动态HTML ## 爬虫跟反爬虫 ## 动态HTML介绍 - JavaScrapt - jQuery - Ajax - DHTML - Python采集动态数据 - 从Javascript代码入手采集 - Python第三方库运行JavaScript,直接采集你在浏览器看到的...
2022-05-17
0
0
selenium:解决 'chromedriver' executable needs to be in PATH 报错 | session not created exception
版本不一致类似的异常还有:session not created exception 主要原因是chrome浏览器和chromedriver 驱动 版本不一致导致的. 下载驱动的链接 https://chromedriver.storage.googleapis.com/index.html ...
2022-05-17
0
0
Python学习笔记--Python 爬虫入门 -17-11 tesseract-OCR
一.Tesseract 安装教程请参考: https://jingyan.baidu.com/article/219f4bf788addfde442d38fe.html 这里说明两点关于配置环境变量的地方: 1.1在环境变量PATH,把tesseract-ocr的安装路径添加进去。 D...
2022-05-17
0
0
首页
上一页
4
5
6
7
8
9
10
11
12
13
下一页
末页