目录

前言

Python

内置函数

re

selenium

自动登录

自动下载

selenium基础知识

爬虫

xpath

PDF处理

pandas--表格数据处理

Stata

爬虫

merge--表格数据处理

函数

应用案例

总结


前言

从2019年5月起,我开始在公众平台下学习软件。到2020年7月卸任,一年多的时间,我从对代码模糊向往的小白,变成了别人口中会写(一点点)代码的大神(不是)。感触很深,人走得太快,也要偶尔等一等自己的灵魂,回头看看走过的路,所以下面做一下总结。

Python

内置函数

Python中实现Excel的重复值提取

优雅的map()

格式化字符串方法的比较

re

妙用正则表达式--Python中的re模块

妙用正则表达式--Python中的re模块(二)

selenium

自动登录

Selenium登录豆瓣

自动下载

过年观影指南(一)

过年观影指南(二)

selenium基础知识

Selenium的等待方式

爬虫

xpath

XPath Helper助XPath爬虫一臂之力

Python带你看文献—xpath抓取知网文献

Requests get爬虫之设置headers

PDF处理

提取PDF文本信息:入门

PDF文本信息提取(二)

PyMuPDF提取文本信息

PDF表格信息提取

PDF图片提取

PDF文档转换成图片

一个函数实现PDF文档合并与拆分

pandas--表格数据处理

Python实现Excel中vlookup函数功能

在Python中实现Stata的stack功能

Stata

爬虫

《少年的你》影评

“气功”研究哪家强

merge--表格数据处理

Stata实现Excel中vlookup函数功能

函数

rename group批量修改变量名

Vardistinct一键去重计数

marktouse标记使用变量

Stata版大家来找茬—cfout就够了

应用案例

Stata模拟构建朋友圈

用WordStat看中国日报新闻

用WordStat看中国日报新闻(二)

批量修改路径

总结

我似乎对软件和数据有一种异常的热情和敏感度。在本科的时候我就特别羡慕选了计算机专业的同学,而我在夹缝中选修了水水的计算机类课程,包括:dreamweaver网页制作、Python初级课程(虽然后来没去上)。统计学用到了spss软件,后来学习到Stata软件可以实现更强大和丰富的内容。

之所以特别喜欢写代码、与软件和数字打交道,我想原因大概有以下几点:

第一、软件短期学习成果高,见效快,给人极大的成就感。对于软件的学习过程,假设0-1代表了对于软件学习的熟练程度,那么从0-0.5,时,曲线陡峭,进步速度快;而从0.5-1时,曲线变缓,进步速度变慢。大脑需要及时反馈和奖赏才能“骗”身体继续且持续做一件事情,我对新的软件的学习过程,一开始处于0-0.5的状态,涉足新领域的巨大成就感让我非常满足,就是因为这个道理。之后包括现在我走在0.5-1的路上,对一件事物的熟练掌握、持续训练,增加了我对它的运用灵活程度和专业性,此时再得到进步,是从熟悉到精通之路,我对它的熟悉变成了擅长和喜欢,良性循环,螺旋上升。

第二、我对数字和数学相对敏感。在之前我一直比较喜欢数学,我认为数学有一种规整的美,按照既定的规则和程序,可以得出唯一不变的结果。规规整整,没有太多主观成分,对就是对,错就是错,简单明了。数字之间的关系和背后的逻辑,代表了事物发展的规律,在对一大堆阿拉伯数字来回折腾处理之后,得到可视化的图表等,我们可以用丰富生动的语言去诠释它、挖掘它,让它为我们所用。

我一直学习,遇到困难的时候,第一反应是我可以学。我喜欢迎难而上,把困难狠狠地踩在脚下,然后做出一番成绩,说:看吧,我知道我可以。

数据分析之路还很长,我也只走了一点点,来日再相逢,记得一直进步哦~