等OC的小菜鸟
等OC的小菜鸟
全部文章
分类
Algorithm(20)
C++(3)
Crawler(6)
ELK(7)
Git(1)
JavaScript(1)
JAVA高级(8)
Linux(6)
Little Tips(8)
SQL(4)
Vue(1)
项目记录(3)
归档
标签
去牛客网
登录
/
注册
等OC的小菜鸟的博客
TA的专栏
9篇文章
1人订阅
LeetCode题解
9篇文章
1658人学习
全部文章
(共2篇)
爬取模块(WebMagic)
爬取模块(WebMagic) 一、概述 该项目的职位数据主要来自爬虫自动爬取,现已对拉勾网、51job等网站的职位、公司信息进行成功爬取。本爬虫模块采用的是WebMagic框架,使用HttpClient生成post请求,然后将爬取的信息筛选存储至MySQL数据库。其中souzhi-crawler...
MySQL
WebMagic
2020-04-19
0
675
WebMagic使用小结
WebMagic使用小结 一、总体架构 WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scap...
WebMagic
SpringBoot
爬虫
2020-04-11
0
1083