牛客332084533号
牛客332084533号
全部文章
未归档
python(9)
前端(1)
数据库(1)
数据结构(2)
生产环境部署(5)
计算机基础(2)
项目实战(12)
归档
标签
去牛客网
登录
/
注册
牛客332084533号的博客
全部文章
/ 未归档
(共13篇)
15-scrapy-redis两种形式分布式爬虫
什么叫做分布式爬虫? 分布式爬虫,就是多台机器共用一个scrapy—redis程序高效爬取数据, 为啥要用分布式爬虫? 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) ...
爬虫
2019-10-09
0
428
16-增量式爬虫
增量式爬虫 增量式爬虫,顾名思义。就是当网站更新新的内容的时候,能够将新内容储存下来,而不是将原来的数据又储存下来。例如电影网站每隔一段时间就更新新的电影,小说网站每天更新新的小说。 因此增量式爬虫就是发送请求之前,判断这个url是否爬取过,解析出数据判断是否爬取过: ...
爬虫
2019-10-10
0
389
17-Python执行JS代码--PyExecJS、PyV8、Js2Py
一、Python执行JS代码--PyExecJS、PyV8、Js2Py 1.1、PyExecJS PyExecJS的优点是您不需要照顾JavaScript环境。特别是,它可以在Windows环境中运行,而无需安装额外的库。PyExecJS的缺点之一是性能。PyExecJS通过文本传达Java...
爬虫
2019-12-13
0
619
首页
上一页
1
2
下一页
末页