GeoGeoModel

分类

C++(1) ETL-Kettle(1) Hive(1) JAVA(1) MySQL(23) OSM(1) 大数据(2) 数据结构（Python）(3) 未归档(3) 机器学习(4) 深度学习upup(5) 爬虫（python）(9)

/ 注册

全部文章（共48篇）

MySQL

1.用了哪些数据库产品？你熟悉的数据库产品？RDBMS关系型数据库：MySQL,Oracle,PG,MSSQLNoSQL非关系型数据库:Redis,MongoDB,ESRDS:MySQL,Redis,.... 2.安装5.7+mysqld --initialize-insecure--initial...

2020-09-19

0 363

MySQL DB

1.1本地socket链接方式 socket=/tmp/mysql.sock mysql -s /tmp/mysql.sock只能在本地使用，不依赖于IP和端口 1.2远程TCP/IP链接方式 mysql -uroot -p123 -h 10.0.0.51 -P 3306服务器端的结构组成mysql...

2020-09-19

0 528

Scrapy

今天介绍可以用于数据挖掘，检测，自动化测试的框架Scrapy，它主要是一个快速，高层次的屏幕抓取和网站抓取的框架主要部分有以下几个：Scrapy用来处理整个系统的数据流处理, 触发事务(框架核心)Scheduler用来接受Scrapy发过来的请求, 压入队列中, 并在Scrapy再次请求的时候返回....

2020-08-09

0 541

ORM

ORM：对象映射关系，相当于中继数据1.简单，最基本的形式建模数据2.传达性：数据库结构被任何人都能理解的语言文档化3.精确性：基于数据模型创建正确标准化的结构使用ORM的理由1.隔离数据库和数据库版本之间的差异2.便于维护3.ORM会提供防sql注入等功能4.变量传递式的调用更加简单使用peewe...

2020-08-08

0 432

爬虫实战项目（一）

本次项目主要是爬取某论坛网站明确目标1.帖子2.回答3.用户信息（如果抓取用户，通过粉丝和关注进行抓取）抓取策略全站抓取策略：通过herf链接进行抓取分析抓取网站的数据构成，避免出现循环，分散的抓取页面是否动态一般都是静态页面，详细见https://www.cnblogs.com/bluesungz...

2020-08-03

0 523

css

css选择器基本语法如下 * 选择所有节点 #container 选择id为container的节点 .container 选取所有class包含container节点 li a 选取所有li下的所有a节点 ul+...

2020-08-03

0 401

xpath

xpath简介1.xpath使用路径表达式在xml和html中进行导航，即可以通过路径表达式确定在html中所需元素的位置2.xpath包含标准函数库3.xpath是一个w3c的标准xpath节点关系1.父节点2.子节点3.同胞节点4.先辈节点5.后代节点xpath语法 article ...

2020-08-03

0 499

爬虫-正则表达式

基本语法：提取字符串：1999年8月1日 str.split("年")[0]或者用正则表达式 . 匹配任意字符 ^ 匹配开头字符 $ 匹配结尾字符 * 匹配前一个字符出现0-任意多次 + 匹配前一个字符出现1-任意多次 ? ...

2020-08-03

0 984

request介绍

request是python中的HTTP库 import requests res=requests.get("http://www.baidu.com") print(res.encoding) print(res.status_code) print(res.headers)...

2020-08-02

0 506

爬虫数据采集分类

按对象分：1.全网采集2.全站采集3.具体网站的指定数据采集按方案分：1.http协议采集（web页面采集）2.api接口采集（app数据采集）3.api采集（web上，例如：github,twitter,主要是做相关拓展应用）

2020-08-02

0 555