业务需求,单位电脑上要装一下pyspark
可费劲了。。

网上可以搜到现在步骤已经简单很多了,做个记录,第一次装

1.java
这个网上自己搜,一路下来即可,一般就是安装+环境变量
打开cmd 输入java -version
图片说明

2.conda/pip install pyspark
开Anaconda Prompt 输入
公司电脑安装的时候说import 一个库包失败
所以先 install 了一下pypandoc
装完
pyspark回车
出现类似以下错误
error shell:..........
图片说明

受伤了,,,

3.hadoop + winutils
网上找了一圈
理解下来就是
hadoop 是linux上用的,win10就没法用
但是可以用一个hadooponwindows-master转换一下

故跟流程来
a) 下载hadoop
http://archive.apache.org/dist/hadoop/core/
这边我又看了下 官网有2个版本啊
Source download与Binary download,文件名是一个带-scr ,一个不带
下载后者
解压到一个你放心的路径,然后加环境变量
图片说明
图片说明

公司电脑就是惨啊,没权限就添加添加用户变量。。。

b)下载对应的winutils
搜一搜hadooponwindows-master
找与你下载的hadoop版本所对应的bin文件夹,看看里面有winutils的 就对了

我这2.7.1,网上很多教程都是这个版本为例
https://github.com/sardetushar/hadooponwindows

就要bin文件夹,复制所有到/hadoop/bin 里 替换

以上就完成了,重新开Anaconda Prompt ,pyspark
图片说明
非常完美

随便跑一个

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# 初始化
spark = SparkSession.builder.master("local[*]").appName("FiratApp").getOrCreate()

# 下面两句都可以获取0到9的数据
# data = spark.createDataFrame(map(lambda x: (x,), range(10)), ["id"])
data = spark.range(0, 10).select(col("id").cast("double"))

# 求和
data.agg({'id': 'sum'}).show()

# 关闭
spark.stop()

图片说明

非常完美