chain-thresh

python爬虫

ASP.NET(1) Web安全(2) 信息安全(5) 未归档(8) 疑难杂症(3)

/ 注册

全部文章 / python爬虫（共28篇）

python爬虫学习笔记(十八)-Scrapy 数据的提取

1 Scrapy提取项目从网页中提取数据，Scrapy 使用基于 XPath 和 CSS 表达式的技术叫做选择器。以下是 XPath 表达式的一些例子：这将选择 HTML 文档中的 <head> 元素中的 <title> 元素 /html/head/tit...

2020-07-20

0 728

python爬虫学习笔记(十七)-框架使用

1 基本使用 1.1 创建项目运行命令: scrapy startproject myfrist（your_project_name）文件说明：名称作用 scrapy.cfg 项目的配置信息，主要为Scra...

2020-07-20

0 334

python爬虫学习笔记(十六)-Scrapy 框架介绍与安装

1. Scrapy 框架介绍 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy = Scrach+Python Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试、信息处理和历史档案等大量应...

2020-07-20

0 415

python爬虫学习笔记(十五)-Tesseract Ocr引擎及安装介绍

1. Tesseract介绍 tesseract 是一个google支持的开源ocr项目其项目地址：https://github.com/tesseract-ocr/tesseract 目前最新的源码可以在这里下载 2. Tesseract安装包下载 Tesseract的rel...

2020-07-20

0 463

python爬虫学习笔记(十四)-Selenium处理滚动条

Selenium 处理滚动条 selenium并不是万能的，有时候页面上操作无法实现的，这时候就需要借助JS来完成了　　当页面上的元素超过一屏后，想操作屏幕下方的元素，是不能直接定位到，会报元素不可见的。这时候需要借助滚动条来拖动屏幕，使被操作的元素显示在当前的屏幕上。滚动条是无法直...

2020-07-20

0 417

python爬虫学习笔记(十三)-Selenium与PhantomJS

1. Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可...

2020-07-20

0 532

python爬虫学习笔记(十二)-爬虫之多线程

1. 如何使用爬虫使用多线程来处理网络请求，使用线程来处理URL队列中的url，然后将url返回的结果保存在另一个队列中，其它线程在读取这个队列中的数据，然后写到文件中去 2. 主要组成部分 2.1 URL队列和结果队列将将要爬去的url放在一个队列中，这里使用标准库Queue...

2020-07-20

0 443

python爬虫学习笔记(十一)-数据提取之PyQuery的使用

1. pyquery 1.1 介绍 --Jquery解析库官网https://pythonhosted.org/pyquery/ 1.2 安装 pip install pyquery 1.3 使用方式 1.3.1 初始化方式字符串 ...

2020-05-24

0 625

python爬虫学习笔记(十)-数据提取之JsonPath的使用

1. JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 ...

2020-05-24

0 641

python爬虫学习笔记(九)-数据提取之XPath的使用

1. 介绍之前 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath 官网 http://l...

2020-05-24

0 484