Spark-SQL 有用的 SQL

我发现自己每次用 Spark 造 Iceberg 表都要耗费老大的劲,官方文档总是没有一个现成的 Demo,网上也搜索不到,全靠自己琢磨。故在这里记录一下,顺带帮助一下可能需要的人。

本地 Iceberg

Spark-SQL 启动 Iceberg:

./bin/spark-sql --packages org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.4.2\
    --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions \
    --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \
    --conf spark.sql.catalog.spark_catalog.type=hive \
    --conf spark.sql.catalog.local=org.apache.iceberg.spark.SparkCatalog \
    --conf spark.sql.catalog.local.type=hadoop \
    --conf spark.sql.catalog.local.warehouse=$PWD/warehouse \
    --conf spark.sql.defaultCatalog=local

注意 package 的名称:org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.4.2。其中 3.5 是 spark 的版本,要使用自己 Spark 对应的版本。2.12 是 Spark 对应的 scala 版本。1.4.2 是 iceberg 的版本。

Spark-SQL 创建一个 Iceberg V2 表:

CREATE TABLE pos_delete_parquet (id int, data string) USING iceberg 
TBLPROPERTIES(
"write.delete.mode"="merge-on-read", 
"write.update.mode"="merge-on-read", 
"write.merge.mode"="merge-on-read", 
"format-version"="2");

merge-on-read 只有 iceberg v2 才有,指定了就算是 iceberg v2 的表了。

Iceberg + HMS 连接

./bin/spark-sql \
  --packages org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.4.2\
    --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions \
    --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \
    --conf spark.sql.catalog.spark_catalog.type=hive \
    --conf spark.sql.catalog.local=org.apache.iceberg.spark.SparkCatalog \
    --conf spark.sql.catalog.local.type=hive \
    --conf spark.sql.defaultCatalog=local \
    --conf spark.sql.catalog.local.uri=thrift://172.26.80.92:9083

Hive + HMS 连接

# hive
./bin/spark-sql \
--conf spark.sql.hive.metastore.version=2.3.9 \
--conf spark.sql.hive.metastore.jars=builtin \
--conf spark.hadoop.hive.metastore.uris=thrift://172.26.80.92:9083 \
--driver-memory 20G \
--executor-memory 60G

解决 Spark packages 下载慢

受制于网络问题,有时候 --packages 指定的 jar 下载很慢,这时候可以直接把对应的 jar 包放置到 Spark 目录中的 jars 目录下即可。

未完待续,持续更新

原创文章,作者:Smith,如若转载,请注明出处:https://www.inlighting.org/archives/spark-sql-useful-sqls

打赏 微信扫一扫 微信扫一扫
SmithSmith
上一篇 2023年11月12日 下午7:38
下一篇 2024年3月25日 下午8:25

相关推荐

  • HDFS Hedged Read 的利弊分析

    HDFS Hedged read 是一种优化 HDFS 客户端读取文件性能的方法。它会在存在慢节点的情况下,通过申请多个内存来提高读取性能。但是,由于 Hedged read 会频繁申请内存,可能会导致内存消耗过大,从而影响系统性能。因此,HDFS 并没有默认开启 Hedged read 功能。在使用 Hedged read 时,需要注意内存消耗的问题,以避免对系统性能造成负面影响。

    2023年11月12日
    1.5K2
  • HTrace 与 Zipkin 简单教程

    最近阅读 HDFS 的源码,看到在 DFSClient 中很多地方用到了 HTrace 这款框架,所以特意学习下。 HTrace 是一款由 Cloudera 开发的分布式追踪框架,…

    2021年1月21日
    2.3K0
  • 解决 IDEA 阅读 Hadoop 源码报错问题

    最近阅读 Hadoop 源码,使用 IDEA 打开 Hadoop,正常导入 maven 依赖后,发现某些类里面总是会报各种类不存在的错误,如下图: 一开始以为是因为我配置了国内 m…

    2020年12月28日
    2.2K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


评论列表(3条)

  • danny
    danny 2024年1月27日 下午3:15

    学习到了

  • 托尼
    托尼 2023年11月30日 下午3:21

    厉害呀(☆ω☆)