Ubuntu下Hadoop集群与Hive部署指南

在 Ubuntu 下部署 Hadoop 集群并配置 Hive 涉及到多个步骤，包括安装、配置、启动和验证。本文将详细介绍如何一步一步地完成这些操作。

一、Hadoop 集群部署

1. 环境准备

系统环境：Ubuntu 20.04 或 22.04
主机配置：设置两台或多台 Ubuntu 服务器作为 Hadoop 集群节点（一个为 Master 节点，另一个或多个为 Slave 节点）
Java 环境：Hadoop 依赖于 Java，首先需要安装 Java 环境。

sudo apt update
sudo apt install openjdk-8-jdk

验证 Java 安装：

java -version

2. Hadoop 安装

下载 Hadoop：

前往 Apache Hadoop 官方网站下载最新版本的 Hadoop 二进制包。

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz
sudo mv hadoop-3.3.1 /usr/local/hadoop

配置环境变量：

编辑 ~/.bashrc 文件，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

使配置生效：

source ~/.bashrc

配置 Hadoop：

编辑 Hadoop 的配置文件，路径为 /usr/local/hadoop/etc/hadoop。

core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
</configuration>

hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///usr/local/hadoop/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///usr/local/hadoop/hdfs/datanode</value>
    </property>
</configuration>

mapred-site.xml:

将 mapred-site.xml.template 重命名为 mapred-site.xml，并编辑：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

格式化 HDFS：
在主节点上运行以下命令以格式化 HDFS：
```
hdfs namenode -format
```
启动 Hadoop：
在主节点上依次启动以下服务：
```
start-dfs.sh
start-yarn.sh
```
验证安装：
访问 Hadoop Web UI 界面：
- Namenode Web UI: http://<master_ip>:9870
- ResourceManager Web UI: http://<master_ip>:8088

二、Hive 部署与配置

Hive 是一个基于 Hadoop 的数据仓库工具，提供 SQL 查询能力。

1. 安装 MySQL（元数据存储）

Hive 需要一个关系型数据库来存储元数据，MySQL 是常见选择。

安装 MySQL：

sudo apt install mysql-server
sudo mysql_secure_installation

配置 Hive 元数据库：

创建 Hive 所需的数据库和用户：

CREATE DATABASE hive;
CREATE USER 'hiveuser'@'localhost' IDENTIFIED BY 'hivepassword';
GRANT ALL PRIVILEGES ON hive.* TO 'hiveuser'@'localhost';
FLUSH PRIVILEGES;

2. 安装 Hive

下载并解压 Hive：

wget https://downloads.apache.org/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
tar -xzvf apache-hive-3.1.2-bin.tar.gz
sudo mv apache-hive-3.1.2-bin /usr/local/hive

配置 Hive：

编辑 Hive 配置文件 /usr/local/hive/conf/hive-site.xml：

<configuration>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://localhost:3306/hive?useSSL=false</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.cj.jdbc.Driver</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>hiveuser</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>hivepassword</value>
    </property>
</configuration>

启动 Hive Metastore：

启动 Hive 的 Metastore 服务：

schematool -dbType mysql -initSchema
nohup hive --service metastore &

启动 HiveServer2：
```
nohup hiveserver2 &
```

3. 验证 Hive

使用 beeline 或者其他 Hive 客户端连接到 HiveServer2 并执行查询，验证 Hive 是否正常工作：

beeline -u jdbc:hive2://localhost:10000

执行简单的查询以验证安装：

SHOW DATABASES;

总结

通过以上步骤，您可以在 Ubuntu 系统上成功部署一个 Hadoop 集群并配置 Hive。Hadoop 提供了分布式文件系统和计算框架，而 Hive 为大数据提供了 SQL 查询接口。通过配置 MySQL 作为元数据存储，您可以高效管理 Hive 的元数据，并使用 SQL 查询处理大规模数据集。

Ubuntu下Hadoop集群与Hive部署指南

一、Hadoop 集群部署

1. 环境准备

2. Hadoop 安装

二、Hive 部署与配置

1. 安装 MySQL（元数据存储）

2. 安装 Hive

3. 验证 Hive

总结

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本