spark 基础

wangxiuwen 2017-12-27 技术 tech, 技术 0 评论字数统计: 243(字) 阅读时长: 1(分)

spark-default.conf 参数

spark.yarn.historyServer.address=test:18080
spark.history.ui.port=18080
spark.eventLog.enabled=true
spark.eventLog.dir=hdfs://test-1:9000/tmp/spark/events

# 无需每次上传jar包
spark.yarn.archive=hdfs:///system/spark/spark-libs.jar

spark-env.sh:

1	export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.3/etc/hadoop

启动

bin/spark-shell --master yarn --deploy-mode client

spark-shell 内部调用了 spark-submit

yarn 模式查看日志

bin/yarn logs --applicationId application_xxxxx

提交作业和运行命令的用户必须一致，否则拉不到日志

内存配置

<property>
	<name>yarn.nodemanager.vmem-pmem-ratio</name>
	<value>10</value>
</property>

1	spark-submit --excutor-memory 10G --conf "spark.yarn.executor.memoryOverhead=2048"

hdfs 查看一个文件下的 block 个数

hdfs fsck

partque 文件

–master 选项为分布式的集群指定 master URL, local 为单进程启动， local[N] 为N个进程启动，测试的时候应该指定为 local

1
2
3

./bin/spark-shell --master local[2]

./bin/spark-shell --master yarn --deploy-mode client --verbose

查看 hdfs 一个文件有几个 block

1	./bin/hdfs fsck /data/opt/test.txt --files --blocks -locations

本文链接： https://wangxiuwen.github.io/history/tech/5a43b2f47d1fd3a0094153fe/
版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

williamwong

Backend Developer & Music Lover

spark 基础