等OC的小菜鸟
等OC的小菜鸟
全部文章
Crawler
Algorithm(20)
C++(3)
ELK(7)
Git(1)
JavaScript(1)
JAVA高级(8)
Linux(6)
Little Tips(8)
SQL(4)
Vue(1)
项目记录(3)
归档
标签
去牛客网
登录
/
注册
等OC的小菜鸟的博客
全部文章
/ Crawler
(共6篇)
WebMagic使用小结
WebMagic使用小结 一、总体架构 WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scap...
WebMagic
SpringBoot
爬虫
2020-04-11
0
1083
拉勾网爬取(HttpClient)
拉勾网爬取(HttpClient) 一、概述 Java许多框架都是以httpclient作为基础的,比如Webmagic。因此学会httpClient的爬取是至关重要的。业界成熟的爬虫框架会对httpClient做一个基本的封装,使爬虫更益于上手,避免了繁杂重复的工作。但是大多数网站的反爬措...
2019-11-03
0
678
拉勾网爬取(WebMagic+Selenium+ChromeDriver)
拉勾网爬取(自动化) WebMagic+Selenium+ChromeDriver实现浏览器自动化抓取。 网页反扒做到难以破解的情况下,采用selenium模拟浏览器自动爬取可谓是一个好方法,模拟用户浏览器的操作可以更简易的破解许多问题。如果网页是动态生成的话,用selenium也是正确的选...
2019-10-28
0
1282
Jsoup解析HTML
Jsoup解析HTML Jsoup是一款Java的HTML解析器,可以直接解析某个URL地址,也可以解析HTML内容。其主要的功能包括解析HTML页面,通过DOM或者CSS选择器来查找、提取数据,可以更改HTML内容,HTML文档过滤清理。 一、文档清理 1、字符串转化 String h...
2019-10-20
0
973
HttpClient使用
HttpClient爬虫使用 Java本身提供了关于网络访问的包,在java.net中,然后它不够强大。于是Apache基金会发布了开源的http请求的包,即HttpClient,这个包提供了非常多的网络访问的功能。 一、HttpClient简单示例 maven工程中导包 <dep...
2019-10-20
0
607
Java基础爬虫
1、请求获取链接 1.1 URL.openConnection() 返回一个URLConnection对象,他表示URL所引用的远程对象的链接。 1.2 URL.openStream() 返回URL链接读入的输入流,打开到此 URL 的连接并返回一个用于从该连接读入的 InputStream 可能形...
爬虫
2019-10-17
0
560