牛客332084533号

未归档

python(9) 前端(1) 数据库(1) 数据结构(2) 生产环境部署(5) 计算机基础(2) 项目实战(12)

/ 注册

全部文章 / 未归档（共60篇）

04-Django模型（1）

模型　　MTV图解 ORM 　　ORM全拼：Object-Relation-Mapping翻译就是对象关系映射。在MVC/MTV设计模式中的Model模块中都包括ORM。主要实现模型对象到关系数据库数据的映射。比如：把数据库表中每条记录映射为一个模型对象 ...

Django学习之路

2019-10-11

0 541

03-Django基础概念和MVT架构

一、Django基础掌握Django的 MVT 架构的使用掌握Git管理源代码主要内容了解Django的 MVT 架构的使用流程使用Django完成案例 : 书籍信息管理 MVC介绍　　MVC：全拼为Model-View-Controller...

Django学习之路

2019-10-11

0 372

16-增量式爬虫

增量式爬虫　　增量式爬虫，顾名思义。就是当网站更新新的内容的时候，能够将新内容储存下来，而不是将原来的数据又储存下来。例如电影网站每隔一段时间就更新新的电影，小说网站每天更新新的小说。　　因此增量式爬虫就是发送请求之前，判断这个url是否爬取过，解析出数据判断是否爬取过：　　　　　　　　...

爬虫

2019-10-10

0 392

15-scrapy-redis两种形式分布式爬虫

什么叫做分布式爬虫？　　分布式爬虫，就是多台机器共用一个scrapy—redis程序高效爬取数据，　　为啥要用分布式爬虫？　　　　其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器） ...

爬虫

2019-10-09

0 437

14-scrapy框架(CrawlSpider)

CrawlSpider介绍　　CrawlSpider是Spider的一个子类，意味着拥有Spider的方法，以及自己的方法，更加高效简洁。其中最显著的功能就是"LinkExtractors"链接提取器。Spider是所有爬虫的基类，其设计只是为了爬取start_urls列表中...

爬虫

2019-10-09

0 455

05-pandas索引切片读取数据缺失数据处理

引入　　numpy已经能够帮助我们处理数据，能够结合matplotlib解决我们数据分析的问题，那么pandas学习的目的在什么地方呢？ numpy能够帮我们处理处理数值型数据，但是这还不够很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等比如：我们通过爬虫获取到了存储在数据库中的...

数据分析Numpy、Padas、Matplotlib

2019-10-09

0 519

13-scrapy中selenium的应用

一. 引入　　在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scr...

爬虫

2019-10-07

0 3107

12-UA池和***池

一、UA池和***池 1、UA池　　 scrapy的下载中间件：　　下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。作用：（1）引擎将请求...

爬虫

2019-10-07

0 1731

11-scrapy(递归解析,post请求,日志等级,请求传参)

一、递归解析：　　需求：将投诉_阳光热线问政平台中的投诉标题和状态网友以及时间爬取下来永久储存在数据库中　　　url:http://wz.sun0769.com/index.php/question/questionType?type=4&page= 需求分析：每一个页面对应的...

爬虫

2019-10-07

0 6494

04-numpy读取本地数据和索引

1、numpy读取数据　　CSV:Comma-Separated Value,逗号分隔值文件显示：表格状态源文件：换行和逗号分隔行列的格式化文本,每一行的数据表示一条记录由于csv便于展示,读取和写入,所以很多地方也是用csv的格式存储和传输中小型的数据,为了方便教学,我们会经常操作csv...

数据分析Numpy、Padas、Matplotlib

2019-10-06

0 542