Spark-SQL 有用的SQL
我发现自己每次用 Spark 造Iceberg表都要耗费老大的劲,官方文档总是没有一个现成的Demo,网上也搜索不到,全靠自己琢磨。故在这里记录一下,顺带帮助一下可能需要的人。 Iceberg Spark-SQL 启动 Iceberg: ./bin/spark-sql --packages org.apache.iceberg:iceberg-sp…
HDFS Hedged Read 的利弊分析
HDFS Hedged read 是一种优化 HDFS 客户端读取文件性能的方法。它会在存在慢节点的情况下,通过申请多个内存来提高读取性能。但是,由于 Hedged read 会频繁申请内存,可能会导致内存消耗过大,从而影响系统性能。因此,HDFS 并没有默认开启 Hedged read 功能。在使用 Hedged read 时,需要注意内存消耗的问题,以避免对系统性能造成负面影响。
StarRocks 常见疑难杂症
本文简单梳理一下自己在使用 StarRocks 时遇到的一些疑难杂症,仅供参考,本文会持续更新。 问题列表 ERROR 1064 (HY000): BE access S3 file failed, SdkResponseCode=-1, SdkErrorType=99, SdkErrorMessage=curlCode: 77, Problem …
2023年10月1日数据湖测试
OLAP 有 ClickBench,向量化有 VectorDBBench,那么数据湖就不能有一个 DataLakeBench?正可谓知己知彼,方能百战不殆。国庆自己整了一个 TPCH 100G 测试,来测试目前国内几个 AP 系统在湖上的查询能力。 这次只是一个初步摸底,为后续跑通 DataLakeBench 流程做准备。 测试数据集分为 ORC、…
记录一次 StarRocks CSV Reader 性能优化过程
这段时间,一位用户间断性的吐槽 StarRocks 有些 SQL 比 Trino、Apache Doris 慢了 n 个数量。起初我们没有太在意,觉得可能是某些 bad case 引起。后面感谢用户的定位,发现了这些查询的数据源大多为 Hive Text 格式(也就是 CSV 格式)。 天将降大任于斯人也,领导便把这个重任交付与我。其实问题一到手,…
Trino / StarRocks 阿里云 EMR Kerberos 认证指南
Kerberos 是最为头疼的鉴权配置,但是 Hadoop 全家桶绕不开,只能硬着头皮干了。本文以 Trino 和 StarRocks 为例,讲述如何在非 EMR 的节点上,通过一系列魔幻配置连上阿里云 EMR 的 Kerberos。StarRocks 和 Trino 的配置风格有点不同,Trino 因为在 catalog properties 已…
618 之我的刀把金鱼缸主机
自己一直惺惺念念想拥有一台优雅的、强劲的台式机,终于在今年的 618,组上了一台艺术品,废话不多说,先上图: 侧颜照 机箱特意选了一个乔思伯 TK-1 金鱼缸机箱,侧弯的玻璃能够完美的展现机箱内部,而且机箱相对小巧一点,放在桌子上面不会占用过多的位置。 起初有点想买 4060Ti 的显卡,毕竟价格便宜,功耗也低,但是想想自己都是 4K 的屏幕,最后…
StarRocks 全新云厂商鉴权系统食用指南
随着 StarRocks 3.0 的发布,彻底结束了过去云厂商鉴权参数军阀混战的年代,现在采用统一的全新鉴权参数。而且这些鉴权参数可以使用在任何需要发生鉴权的地方,可以是数据湖的 catalog,也可以是导入导出,甚至还可以在备份中使用,可谓是 anywhere。(数据湖的外部表不支持,因为这个功能即将入土)。 所有鉴权参数的命名采用 云厂商.产品…
云计算新人之公有云 IAM
本篇文章简单的说下目前公有云厂商的 IAM 机制,以全球最大的三个云厂商为例(AWS,Azure 和 GCP),在说明的过程顺带浅谈一下它们家存储产品(也就是 S3,Azure Blob Storage,和 Google Cloud Storage),毕竟这玩意是我们和 IAM 打交道最多的产品。 IAM 的作用 IAM,Identity and …