Python大数据开发的思维导图如下:
编程语言
比较适合大数据编程语言的有以下几种:C/C++、Java、Scala和Python等,如果本身有技术栈,那么按照自己熟悉的语言走。假如没有那么我建议从Python这门语言入手,其学习反馈周期短,很容易上手。
深度学习
深度学习是近年来热门的概念之一,源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
这里我只推荐一本书,MIT的《深度学习》,这本书已经能够全面地介绍深度学习的方方面面且被不少人奉为“圣经”。
大数据工具
Hadoop:
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,工业上大数据热门的工具之一。其中最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
对于Hadoop的学习,我推荐阿里云的一篇很优秀的帖子——Hadoop学习资源集合-博客-云栖社区-阿里云,链接:https://yq.aliyun.com/articles/47860
Spark:
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
相关书籍资源:
-
《Spark大数据处理 技术、应用与性能优化 高彦杰》
-
《深入理解Spark核心思想与源码分析 耿嘉安》
其他相关知识
学习数据方面必要要有一定的数理统计知识,如果大学有学习足够的数学课程那么足够了,也可以去可汗学院参考以下课程去复习这些知识点——概率和统计和线性代数。然后有空时可刷下这本书《Python数据挖掘入门与实践》,大概梳理一遍以上的知识点,对大数据入门就有一定基础知识和自己的了解。
我要推荐下我自己建的大数据开发学习群:710-2198-68
,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享都是学大数据开发的,如果你正在学习大数据,欢迎初学和进阶中的小伙伴。