云服务器 pythonspark python环境搭建

京东云服务器学生 最近项目需要用到spark大数据相关技术,周末有空spark环境搭起来... 目标spark,python运行环境部署在linux服务器 个人通过vscode开发 通过远程python解释···

京东云服务器学生

最近项目需要用到spark大数据相关技术,周末有空spark环境搭起来...

目标

spark,python运行环境部署在linux服务器 个人通过vscode开发 通过远程python解释器执行代码

准备

腾讯云服务器一台 个人笔记本一台vscodespark3.2,anaconda3,jdk1.8

spark安装

下载spark安装包wget https://dlcdn.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz创建安装目录/export/servermkdir /export/server安装包解压tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C"/export/server"创建spark安装目录软连接ln -s /export/server/spark-3.2.1-bin-hadoop3.2/ /export/server/spark进入spark可执行程序目录,执行pysparkcd/export/server/spark/bin; ./pyspark => JAVA_HOME is notset提示jdk未安装,下一步进行jdk安装...

jdk安装

将准备好的jdk安装包jdk-8u161-linux-x64.tar.gz解压至/export/server目录tar -zxvf /home/dev/jdk-8u161-linux-x64.tar.gz -C /export/server创建jdk安装目录软连接ln -s jdk1.8.0_161/ jdk8添加JAVA_HOME环境变量vi /etc/profile,添加exportJAVA_HOME=/export/server/jdk8exportPATH=$PATH:$JAVA_HOME/bin再次执行/export/server/spark>bin/pyspark => env: python3: No such file or directory提示python3没有安装,下一步进行python3安装...

Anaconda3安装(即python)

免费的云数据库服务器

下载anaconda3安装包wgethttps://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh安装anoconda3shAnaconda3-2022.05-Linux-x86_64.sh在安装过程中的交互提示依次输入:enter=>yes=>/export/server/anaconda3=>yes直到安装完成重新登录终端看见(base)开头表示安装成功vi /etc/profile,添加exportPYSPARK_PYTHON=/export/server/anaconda3/bin/python再次执行/export/server/spark>bin/pyspark => pyspark启动成功,进入交互页面输入python测试代码:>>>>>>sc.parallelize([1,2,3,4,5]).map(lambdax:x+1).collect()[2,3,4,5,6]运行结果pyspark运行时,在新开的终端检查4040端口监听情况netstat-anp|grep4040tcp600:::4040:::*LISTEN-每一个Spark程序在运行的时候,会绑定到Driver所在机器的4040端口上.如果4040端口被占用,会顺延到4041...,可通过浏览器访问4040端口

验证

通过spark-submit执行.py脚本,执行官方sample:/export/server/spark>bin/spark-submit /export/server/spark/examples/src/main/python/pi.py 10自定义脚本helloworld.py:print("hello,world!")通过spark-submit执行/export/server/spark>bin/spark-submit /export/demo/helloworld.py hello,world!输出

PySpark库安装

阿里云服务器都是自己

condacreate-n pyspark python=3.9创建虚拟环境pysparkcondaactivatepyspark切换虚拟环境为pyspark检查虚拟环境pyspark的python解释器路径typepython => pythonis/export/server/anaconda3/envs/pyspark/bin/python vi /etc/profile编辑 PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python pipinstallpyspark -i https://pypi.tuna.tsinghua.edu.cn/simple安装PySpark验证PySpark/export/server>python >>>importpysparkimport pyspark不报错,表示pyspark库安装成功

本地vscode开发远程代码、使用远程解释器执行配置

本地免密访问服务器配置:将本地的公钥(C:\Users\your account\.ssh\id_rsa.pub)内容 配置在需要免密访问的linux服务器用户的$HOME/.ssh/authorized_keys文件中 vscode安装remote development插件,重启vscode vscode添加远程sshtargets:a) 点击ssh targets"+"b) 在弹出框输入 ssh username@ip 回车 c) 在弹出的下拉项中选择C:\Users\your account\.ssh\config d) 编辑config文件 Host xxx无需编辑HostName xxx无需编辑User xxx无需编辑ForwardAgent yes需要新增IdentityFileC:\Users\your account\.ssh\id_rsa需要新增vscode安装python插件 vscode添加远程python解释器: a) Ctrl + Shift + p打开命名面板 b) 输入Python:Select Interpreter选择解释器 c) 输入远程python解释器路径:/export/server/anaconda3/envs/pyspark/bin/python

vscode开发,远程执行验证

vscode选择远程服务器打开目录 vscode中新建helloworld.py文件,并录入print("hello,world!") vscode中执行helloworld.py使用的是远程解释器 vscode提升缺少package,linux服务安装python包: pip install jupyter notebook -i https://pypi.tuna.tsinghua.edu.cn/simple在vscode中重新运行helloworld.py运行成功

完成,以后就可以开心地编写pyspark代码了,再也不担心本机卡卡卡了(*_*),附完成图一张:

阿里云服务器清空

您好:云优数据云计算 www.yunyoushuju.cn 2核2G6M最低19.9元/月 欢迎开机

发表评论

评论列表
未查询到任何数据!