业务需求,单位电脑上要装一下pyspark
可费劲了。。
网上可以搜到现在步骤已经简单很多了,做个记录,第一次装
1.java
这个网上自己搜,一路下来即可,一般就是安装+环境变量
打开cmd 输入java -version
2.conda/pip install pyspark
开Anaconda Prompt 输入
公司电脑安装的时候说import 一个库包失败
所以先 install 了一下pypandoc
装完
pyspark回车
出现类似以下错误
error shell:..........
受伤了,,,
3.hadoop + winutils
网上找了一圈
理解下来就是
hadoop 是linux上用的,win10就没法用
但是可以用一个hadooponwindows-master转换一下
故跟流程来
a) 下载hadoop
http://archive.apache.org/dist/hadoop/core/
这边我又看了下 官网有2个版本啊
Source download与Binary download,文件名是一个带-scr ,一个不带
下载后者
解压到一个你放心的路径,然后加环境变量
公司电脑就是惨啊,没权限就添加添加用户变量。。。
b)下载对应的winutils
搜一搜hadooponwindows-master
找与你下载的hadoop版本所对应的bin文件夹,看看里面有winutils的 就对了
我这2.7.1,网上很多教程都是这个版本为例
https://github.com/sardetushar/hadooponwindows
就要bin文件夹,复制所有到/hadoop/bin 里 替换
以上就完成了,重新开Anaconda Prompt ,pyspark
非常完美
随便跑一个
from pyspark.sql import SparkSession from pyspark.sql.functions import col # 初始化 spark = SparkSession.builder.master("local[*]").appName("FiratApp").getOrCreate() # 下面两句都可以获取0到9的数据 # data = spark.createDataFrame(map(lambda x: (x,), range(10)), ["id"]) data = spark.range(0, 10).select(col("id").cast("double")) # 求和 data.agg({'id': 'sum'}).show() # 关闭 spark.stop()
非常完美