牛客332084533号

未归档

python(9) 前端(1) 数据库(1) 数据结构(2) 生产环境部署(5) 计算机基础(2) 项目实战(12)

/ 注册

全部文章 / 未归档（共13篇）

03爬虫-requests模块基础(1)

requests模块基础什么是requests模块 requests模块是python中原生基于网络模拟浏览器发送请求模块。功能强大，用法简洁高效。为什么要是用requests模块用以前的urllib模块需要手动处理url编码手动处理post参数处理cookie和*...

爬虫

2019-09-24

0 454

05爬虫-requests模块基础（2）

今日重点：　　　　1、***服务器的设置　　　　2、模拟登陆过验证码（静态验证码）　　　　3、cookie与session 　　　　4、线程池 1、***服务器的设置　　有时候使用同一个IP去爬取同一个网站，久了之后会被该网站服务器屏蔽。那么我们应该1怎么处理这个...

爬虫

2019-09-29

0 2368

06爬虫-异步协程

1. 前言（目的就是大大提升爬虫效率）　　在执行IO密集型任务的时候，代码常常遇到IO操作而等待。例如我们在爬虫的时候，用到requests请求的时候，网页响应慢，一直等待着，那么爬虫的效率会大大的降低。为了解决这类问题，本文就来探讨一下 Python 中异步协程来加速的方法，此种方法对于 ...

爬虫

2019-10-01

0 415

07-selenium、PhantomJS（无头浏览器）

selenium（自动化测试工具可用于在爬虫中解决js动态加载问题）　　简介(本质就是模仿浏览器工作) 　　Selenium 是什么？一句话，自动化测试工具。它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，如果你在这些浏览器里面安装一个 Selenium...

爬虫

2019-10-01

0 2375

09-移动端数据的设置爬取

1 什么是Fiddler? （伪服务器）　　Fiddler是位于客户端和服务器端的HTTP***，也是目前最常用的http抓包工具之一。它能够记录客户端和服务器之间的所有 HTTP请求，可以针对特定的HTTP请求，分析请求数据、设置断点、调试web应用、修改请求的数据，甚至可以修改服务...

爬虫

2019-10-04

0 485

10-scrapy框架介绍

Scrapy 入门教程 Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内...

爬虫

2019-10-04

0 519

11-scrapy(递归解析,post请求,日志等级,请求传参)

一、递归解析：　　需求：将投诉_阳光热线问政平台中的投诉标题和状态网友以及时间爬取下来永久储存在数据库中　　　url:http://wz.sun0769.com/index.php/question/questionType?type=4&page= 需求分析：每一个页面对应的...

爬虫

2019-10-07

0 6536

12-UA池和***池

一、UA池和***池 1、UA池　　 scrapy的下载中间件：　　下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。作用：（1）引擎将请求...

爬虫

2019-10-07

0 1753

13-scrapy中selenium的应用

一. 引入　　在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scr...

爬虫

2019-10-07

0 3122

14-scrapy框架(CrawlSpider)

CrawlSpider介绍　　CrawlSpider是Spider的一个子类，意味着拥有Spider的方法，以及自己的方法，更加高效简洁。其中最显著的功能就是"LinkExtractors"链接提取器。Spider是所有爬虫的基类，其设计只是为了爬取start_urls列表中...

爬虫

2019-10-09

0 475