不是江小白
不是江小白
全部文章
重整《数据分析...
CSS3(1)
Docker(2)
Git使用(2)
Leetcode题解(7)
MySQL(16)
Python(19)
Python图片识别(2)
小程序(2)
工具安装(11)
数据分析(8)
数据分析思维与实战23讲思维导图(1)
数据分析面试题汇总(4)
机器学习(10)
题解(36)
归档
标签
去牛客网
登录
/
注册
不是江小白的博客
非典型 程序员
全部文章
/ 重整《数据分析实战45讲》
(共4篇)
回炉整理《数据分析实战45讲》之基础篇 -- 11.数据清洗(一)
之前学了陈旸老师的《数据分析实战45讲》(掌柜现在觉得该课程偏向于技术方向的数据挖掘),让掌柜对数据分析的工具(主要是Pandas、Numpy、Matplotlib以及Scikit-learn)使用和步骤有了一个大致的了解。 但是学完后还是觉得里面漏了一些细节的东西,比如时间序列那里没有讲对差分次...
2020-12-04
1
790
回炉整理《数据分析实战45讲》之基础篇 -- 11.数据清洗(二)
上篇补了 “完全合一” 中的“完整性”这个部分掌柜觉得需要了解的知识点,接下来继续看全面性。还是回到服装店会员数据表那里,掌柜觉得这里的“全面性”指的是数据要规范:即大小写要统一、有单位的要统一单位、数据长度也要一致(小数点后面是几位都要统一)、数据名称保持一致等。 那么再看这里的表格可以发现...
2020-12-04
0
849
回炉整理《数据分析实战45讲》之基础篇 -- 13.数据变换(一)
(PS: 先跳过十二章,因为那章讲数据集成,这个后面再一起讲,因为要讲的比较多。此外,下文若有错误,请指正,谢谢!😃) 这次是第十三章: 13 | 数据变换:考试成绩要求正态分布合理么? 该章主要讲数据变换的几种方法中的数据规范化是什么,以及如何用sklearn里面的process...
2020-12-04
0
572
回炉整理《数据分析实战45讲》之基础篇 -- 13.数据变换(二)
(接之前的) 下面我们来看分别用Min-Max归一化、Z-Score标准化对Sklearn数据集里面的鸢尾花数据集进行处理的差别: 首先取了原始数据集里面spal length这一特征来进行可视化: 可以看出来是呈正太分布的,均值和中位数都在6附近。 下面掌柜分别用MinMax归一化 ...
2020-12-04
0
638