牛客98796599

分类

NLP(1) RNN(1) XGBoost(1) 未归档(124)

/ 注册

全部文章（共127篇）

Python3网络爬虫——（5）正则表达式（re模块）

一、正则表达式 1、正则表达式是字符串搜索引擎 Python正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。 2、正则表达式在线测试工具：http://tool.oschina....

2018-04-04

0 589

Python3网络爬虫——（4）urllib.error异常处理

异常处理 1、使用URLError进行异常处理 # -*- coding: UTF-8 -*- from urllib import request from urllib import error if __name__ == "__main__": url =...

2018-04-04

0 451

Python3网络爬虫——（3）代理服务器设置（IP代理使用）

代理服务器设置西刺代理IP URL：http://www.xicidaili.com/ 使用request.ProxyHandler()来设置对应的代理服务器信息 # -*- coding: UTF-8 -*- from urllib import request if __n...

2018-04-03

0 529

Python3网络爬虫——（2）设置User Agent模拟浏览器访问

设置User Agent模拟浏览器访问方法一、使用build_opener()修改报头 # -*- coding: UTF-8 -*- #使用build_opener()修改报头 from urllib import request if __name__ == "__mai...

2018-04-03

0 566

Python3网络爬虫——（1）利用urllib进行简单的网页抓取

利用urllib进行简单的网页抓取 urllib是Python提供的用于操作URL的模块 l、快速使用urllib爬取网页 # -*- coding: UTF-8 -*- from urllib import request if __name__ == "__main__&...

2018-04-03

0 399

Python3网络爬虫——爬虫基本原理

1、网络爬虫概述爬虫就是请求网站并提取数据的自动化程序网络爬虫（Web Spider），又被称为网页蜘蛛，是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取...

2018-04-03

0 448

Python3——字典（dict）合并的几种方法

以下代码均为Python3版本实现方法一：字典的update()方法方法二：字典的dict(d1, **d2)方法和（**d1,**d2）方法方法三：字典的常规处理方法

2018-04-03

0 514

MySQL数据库安装配置与基本操作

Myql数据库版本下载： https://dev.mysql.com/downloads/mysql/ 1、MySql数据库的安装方法参考博客（1） http://www.cnblogs.com/sshoub/p/4321640.html （2） ...

2018-04-01

0 497

Python用json模块存储数据

JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。JSON的数据格式其实就是python里面的字典格式； Json 模块提供了四个方法： dumps、dump、loads、load 1、使用json.dump()和js...

2018-03-28

0 654

Python对字典分别按键（key）和值（value）进行排序

方法一： #使用sorted函数进行排序 ''' sorted(iterable,key,reverse)，sorted一共有iterable,key,reverse这三个参数; 其中iterable表示可以迭代的对象，例如可以是dict.items()、dict.keys()等 key...

2018-03-24

0 442