Trino Iceberg connector + HMS + S3 初尝

wxin55 2024-11-16 01:39 7 浏览 0 评论

架构

Trino iceberg connector：高效查询存储在 S3 上的 Iceberg 表数据，充分利用 Iceberg 的优化和功能。
Hive Metastore：管理 Iceberg 表的元数据。
Apache Iceberg：提供高效的表格式和数据管理机制，支持大规模数据集的高性能查询。
AWS S3：作为存储层，存储 Iceberg 表的数据文件，提供持久性和高可用性。

环境

Ubuntu 22.04.4 LTS
JDK22
MYSQL 8.0.37
Hadoop 3.3.5
Hive 3.1.3
Trino 451
Docker 26.1.4
Amazon S3

本地部署 Hive Thrift Metastore (HMS)

下载 Hadoop[1]

# 解压
tar xvf hadoop-3.3.5.tar.gz

从 mvnrepository 下载 aws-java-sdk-s3-1.12.749.jar、aws-java-sdk-core-1.12.749.jar,、hadoop-aws-3.3.5.jar 放到 ${HADOOP_HOME}/share/hadoop/tools/lib/ 目录下。

下载 Hive[2]

# 解压
tar xvf apache-hive-3.1.3-bin.tar.gz

# 环境变量配置
sudo nano /etc/profile

# 在文件底部加入
export HIVE_HOME=/usr/local/src/apache-hive-3.1.3-bin
export PATH=$PATH:$HIVE_HOME/bin

# 刷新生效
source /etc/profile
# 验证
echo $HIVE_HOME

Thrift Metastore 是 Apache Hive 的一个核心组件，用于存储和管理 Hive 的元数据。作为一个独立的进程运行，Thrift Metastore 使用 Apache Thrift 作为 RPC框架来实现元数据的存取和管理，客户端通过 Thrift 接口与 Metastore 服务进行通信。Metastore 实际使用关系型数据库来存储元数据，Metastore 服务通过 JDBC 与数据库进行交互。

在这里笔者选用了 MYSQL 来存储元数据，操作如下：

# 下载对应版本的 MYSQL 驱动[3] 并放到 hive 的  /lib 目录下
/lib/mysql-connector-j-8.0.33.jar

# MYSQL
# 创建库
CREATE DATABASE hive_metastore;
# 创建用户与授权
CREATE USER 'hive'@'localhost' IDENTIFIED BY '<password>';
GRANT ALL PRIVILEGES ON hive_metastore.* TO 'hive'@'localhost';

创建或修改 ${HIVE_HOME}/conf/hive-site.xml 文件，配置如下：

<configuration>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://localhost:3306/hive_metastore?createDatabaseIfNotExist=true</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.cj.jdbc.Driver</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>hive</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>${your password}</value>
    </property>
</configuration>

Thrift Metastore 虽然不需要依赖 Hadoop 相关服务即可独立运行，但其依赖于 Hadoop 提供的一些必要的 Jar ，如初始化 schema 的 schematool 依赖于 Hadoop 的类库。因此需要修创建或修改 ${HIVE_HOME}/conf/hive-env.sh，如下所示：

export HADOOP_HOME=/usr/local/src/hadoop-3.3.5
export HIVE_AUX_JARS_PATH=${HADOOP_HOME}/share/hadoop/tools/lib/aws-java-sdk-core-1.12.749.jar:${HADOOP_HOME}/share/hadoop/tools/lib/aws-java-sdk-s3-1.12.749.jar:${HADOOP_HOME}/share/hadoop/tools/lib/hadoop-aws-3.3.5.jar
export AWS_ACCESS_KEY_ID=xxxxxxxxxxxx
export AWS_SECRET_ACCESS_KEY=xxxxxxxxxx

运行初始化 schema 脚本，hive_metastore 库便会自动生成相关的表。

./bin/schematool -dbType mysql -initSchema

最后启动 Hive ThriftMetastore 服务。

# 启动
./bin/hive --service metastore &
# 验证
netstat -an | grep 9083

Docker 部署 Trino

笔者采用了 Docker 方式[4] 来部署 Trino。

# 拉取镜像
docker pull trinodb/trino

创建 iceberg.properties 配置如下，metastore[5] 指定为 hive_metastore。底层对象存储系统指定为 Amazon S3 [6][7] 。Trino iceberg connector[8] 支持多种存储系统包含对象存储，详情可参考文档[9]。

connector.name=iceberg
hive.metastore.uri=thrift://<metastore ip>:9083
iceberg.catalog.type=hive_metastore
iceberg.file-format=PARQUET
fs.hadoop.enabled=false
fs.native-s3.enabled=true
s3.region=xxxxxxxx
s3.aws-access-key=xxxxxxxx
s3.aws-secret-key=xxxxxxxxxxx
s3.path-style-access=true

部署启动 Trino，注意配置端口映射与挂载。

docker run --name trino -d -p 8080:8080 \
  --volume /usr/local/src/volume/catalog/iceberg.properties:/etc/trino/catalog/iceberg.properties \
  trinodb/trino

Trino Iceberg connector 使用

创建 Schema，后续在此 schema 下创建的 Table 不再需要指定 location 了。

# 新建
CREATE SCHEMA iceberg.trino_s3_parquet_schema
WITH (location = 's3a://xubintest/parquets/');

#  查看
show schema from iceberg;

# 切换
use iceberg.trino_s3_parquet_schema;

创建 Table。

CREATE TABLE yearly_clicks (
    year,
    clicks
)
WITH (
    partitioning = ARRAY['year']
)
AS VALUES
    (2021, 10000),
    (2022, 20000);

查询表结果

参考文档

[1] Hadoop Download：https://dlcdn.apache.org/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz
[2] Hive Download：https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz
[3] Mysql Driver：https://mvnrepository.com/artifact/com.mysql/mysql-connector-j
[4] Trino in a Docker container：https://trino.io/docs/current/installation/containers.html
[5] Trino Metastores：https://trino.io/docs/current/object-storage/metastores.html
[6] AWS S3：https://docs.aws.amazon.com/zh_cn/AmazonS3/latest/userguide/Welcome.html
[7] S3 file system support：https://trino.io/docs/current/object-storage/file-system-s3.html
[8] Iceberg connector：https://trino.io/docs/current/connector/iceberg.html
[9] Object storage：https://trino.io/docs/current/connector/iceberg.html

hive --service metastore

上一篇：大数据Hadoop之——Apache Hudi 与 Presto/Trino集成
下一篇：大数据Presto(二):Presto安装搭建

Trino Iceberg connector + HMS + S3 初尝

架构

环境

本地部署 Hive Thrift Metastore (HMS)

Docker 部署 Trino

Trino Iceberg connector 使用

参考文档

相关推荐

取消回复欢迎你发表评论:

写给新手|头条文章如何排版更美观?电脑端教程

「基本功」前端安全系列之二:如何防止CSRF攻击?

视频讲解学员信息管理系统升级版（学员管理系统培训机构）

字符串:听说你对KMP还有这些疑问?

JAVA拾遗系列之JAVA基础-语法糖（java语法基础知识）

java 桥接方法（java桥接方法）

深入细聊前端下载总结「干货」（前端软件下载）

黑马程序员:IT技术学习线路图免费任性分享

详解mysql三大时间函数now()、current_timestamp() 和sysdate()

Nginx学习笔记(11) rewrite模块中的if指令

Trino Iceberg connector + HMS + S3 初尝

架构

环境

本地部署 Hive Thrift Metastore (HMS)

Docker 部署 Trino

Trino Iceberg connector 使用

参考文档

相关推荐

取消回复欢迎 你 发表评论:

写给新手|头条文章如何排版更美观?电脑端教程

「基本功」前端安全系列之二:如何防止CSRF攻击?

视频讲解学员信息管理系统升级版（学员管理系统 培训机构）

字符串:听说你对KMP还有这些疑问?

JAVA拾遗系列之JAVA基础-语法糖（java语法基础知识）

java 桥接方法（java桥接方法）

深入细聊前端下载总结「干货」（前端软件下载）

黑马程序员:IT技术学习线路图免费任性分享

详解mysql三大时间函数now()、current_timestamp() 和sysdate()

Nginx学习笔记(11) rewrite模块中的if指令

取消回复欢迎你发表评论:

视频讲解学员信息管理系统升级版（学员管理系统培训机构）