spark-default.conf 参数
1 | spark.yarn.historyServer.address=test:18080 |
spark-env.sh
:
1 | export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.3/etc/hadoop |
启动
bin/spark-shell --master yarn --deploy-mode client
spark-shell 内部调用了 spark-submit
yarn 模式查看日志
bin/yarn logs --applicationId application_xxxxx
提交作业和运行命令的用户必须一致,否则拉不到日志
内存配置
1 | <property> |
1 | spark-submit --excutor-memory 10G --conf "spark.yarn.executor.memoryOverhead=2048" |
hdfs 查看 一个文件下的 block 个数
1 | hdfs fsck |
partque 文件
–master 选项为分布式的集群指定 master URL
, local 为 单进程启动, local[N] 为N个进程启动,测试的时候应该指定为 local
1 | ./bin/spark-shell --master local[2] |
查看 hdfs 一个文件有几个 block
1 | ./bin/hdfs fsck /data/opt/test.txt --files --blocks -locations |