快速上手

本文档将带领您如何创建UHadoop集群,并使用UHadoop集群完成数据处理任务。

创建集群

本章简单介绍了用户使用UHadoop服务时如何快速创建集群,如已创建完毕,请跳至第二章查看如何提交任务

1、进入产品页面

在“全部产品”菜单中点击“托管Hadoop集群 UHadoop”进入产品页面。

也可以将“托管Hadoop集群 UHadoop”设置为快捷方式,通过左侧快捷方式菜单栏点击进入。

2、点击【创建集群】按钮

3、按需配置【基本设置】

限制: VPC和子网信息必填。详情参考私有网络VPC

4、软件设置

该模块提供集群软件、集群框架的选择。

集群框架:

根据应用场景的不同,可选择不同的集群框架。

Hadoop框架:集群中同时部署HDFS和YARN,适用于存储和计算在同一集群。

HDFS框架:集群中仅部署HDFS。用于做存储集群,有专属的HDFS节点机型。

计算框架:不部署HDFS,仅部署YARN。

HDFS框架和计算框架适用于存储计算分离架构。HDFS集群可作为多个独立计算集群的存储集群。

计算集群和存储集群(Hadoop框架、HDFS框架)的关系是多对一。可以在集群详情页看到已经联通的集群。

限制:

1)创建计算集群前需要您已有HDFS集群或Hadoop框架的集群。

2)选择计算集群后,必须要指定【集群存储】,即指定计算集群读写数据的位置。

发行版:

发行版命名方式:uhadoop [ 版本号 ]

每个发行版中有多个大数据生态软件,如HBase、Spark、Hive等。

框架版本:

集群中 Hadoop 的版本,不同发行版的框架版本不同。

集群种类:

不同种类代表集群会安装不同的集群软件。未在此处选择的软件,也可在集群创建完成后,通过集群管理添加。

5、节点设置

节点配额总量: 最多可创建的节点数量。如需更大配额,可联系客户经理或技术支持申请开通。

Master节点: 管理节点,负责协调整个集群服务。一个集群中有且仅有两个管理节点,一主一备,保证高可用。

除了基础服务(如Hadoop、Hive、HBase)的管理端部署在Master上外,一些插件(如Hue、Oozie、Sqoop2、Airflow)也会安装于Master节点上,因此,如若安装大量插件服务,Master节点配置建议高于C1-2xlarge。

Core节点: 核心节点,用于存储数据与运行任务。由于核心节点用于存储数据,因此数量须大于等于2(默认集群文件副本数配置为3),您可以根据业务需求添加更多的核心节点。

  • 不同磁盘类型配置选择建议

第一参考是数据量,数据量按照您需求的业务数据量*3计算(HDFS默认将文件存储3份拷贝,来保证高可用)。

若数据量超过6T后,推荐使用密集存储系列节点(密集存储系列采用SATA硬盘,更适合海量数据的存储)。

若对磁盘性能和存储量都有需求,可使用物理机。

  • 不同CPU、MEM机型的选择

CPU、MEM的选择可按照计算复杂度与数据读写的频度,如果计算不是很复杂,小配置即可,如果复杂度较高,建议4核以上机型。

Spark对内存需求较大,建议选择12G MEM以上的机型。

Task节点: 任务节点,用于执行任务。任务节点不存储数据,您可以在集群运行期间动态进行添加和删除。

Task节点一般用于对整个集群CPU、MEM资源的补充,适合一些需大量消耗计算资源的任务,如若无法确定业务需求,可先不配置Task节点,后续根据需求再添加。

Task所有节点机型配置需保存一致,如若需要升降级,可先删除完所有Task节点,再次添加Task节点时,Console端允许您重新选择机型。

了解各节点配置详情,请参考产品价格

6、访问设置

填充节点root密码。

7、等待集群部署

根据集群规模不同,所需要的部署时间会有所差异,创建时间基本在15分钟左右。

提交任务

1、进入集群管理页面

在集群创建成功后,点击集群管理,进入集群节点详情页面。

2、登录集群

a) 通过控制台登录。

b) 绑定外网eip,本地可通过外网ssh连接登录。目前仅master节点支持绑定。Eip使用详情请见 EIP说明文档

本例中可通过ssh root@106.75.135.10 -p22进行登录。

c) 通过云主机(uhost)内网ssh进行登录。

本例中可在云主机上通过ssh root@10.13.186.23 -p22进行登录。

登录密码为集群创建时设置的密码。

3、任务提交

3.1 利用hadoop命令查看hdfs目录信息

3.2 创建目录,并上传测试数据

[root@uhadoop-******-master1 ~]# hadoop fs -mkdir /input
[root@uhadoop-******-master1 ~]# hadoop fs -put /home/hadoop/conf/* /input

3.3 执行WordCount任务

[root@uhadoop-******-master1 ~]# hadoop jar /home/hadoop/hadoop-examples.jar wordcount /input /output
提示:如果/output目录已存在,请删除该目录或使用其他目录。

3.4 查看wordcount任务的结果

[root@uhadoop-******-master1 ~]# hadoop fs -cat /output/part-r-00000
 
!=	3
""	6
"".	4
"undefined"	1
"undefined"	2
"undefined"	1
"undefined"	1
"undefined"	1
"undefined"	1
"*"	17
 
...

3.5 若集群安装了spark服务,可提交spark任务

spark-submit  --master yarn --deploy-mode client --num-executors 1 --executor-cores 1 --executor-memory 1G undefined/examples/src/main/python/pi.py 100

屏幕信息中会打印任务执行结果:

Pi is roughly 3.141313

更多使用内容,请参考 UHadoop开发指南