沧海月明 – 第 3 页 – This is the way

浅谈 HDFS 慢节点的解决方案

这段时间在和客户一起优化查询慢的问题，发现大量 SQL的查询性能不达标是因为 HDFS 慢节点的问题。有时候整个 IO 性能会差到，拉 200KB 的数据能花 1分钟，这直接导致一个 OLAP 数据库的性能和 Hive 差不多。但是…

Smith
2024年3月25日
LakeHouse
3 条评论

StarRocks 华为云 OBS 配置

不少用华为云的 OBS 用户，不知道怎么配置 StarRocks 才能正常访问 OBS，这里写一篇教程，简单说一下。访问华为云有两种办法，一种是走 S3 的兼容 API，另外一种则是通过华为云自己官方的 Hadoop JAR 包进行访问。…

Smith
2024年3月2日
StarRocks
5 条评论

Spark-SQL 有用的 SQL

我发现自己每次用 Spark 造 Iceberg 表都要耗费老大的劲，官方文档总是没有一个现成的 Demo，网上也搜索不到，全靠自己琢磨。故在这里记录一下，顺带帮助一下可能需要的人。本地 Iceberg Spark-SQL 启动 Iceberg：…

Smith
2023年11月12日
LakeHouse
3 条评论

HDFS Hedged Read 的利弊分析

鄙人在之前一篇文章中，简单的介绍了将 Hedged Read 引入 StarRocks 的效果，见 StarRocks 中关于 Hadoop Hedged Read 性能测试这篇文章。当时得出来的结论是在存在慢节点的情况下，hedged read 一定是正优化的。…

Smith
2023年11月12日
LakeHouse
2 条评论

StarRocks 常见疑难杂症

本文简单梳理一下自己在使用 StarRocks 时遇到的一些疑难杂症，仅供参考，本文会持续更新。问题列表 ERROR 1064 (HY000): BE access S3 file failed, SdkResponseCode=-1, SdkErrorType=99, SdkErrorMessage=curlC…

Smith
2023年10月28日
StarRocks

2023年10月1日数据湖测试

OLAP 有 ClickBench，向量化有 VectorDBBench，那么数据湖就不能有一个 DataLakeBench？正可谓知己知彼，方能百战不殆。国庆自己整了一个 TPCH 100G 测试，来测试目前国内几个 AP 系统在湖上的查询能力。这次只是…

Smith
2023年10月1日
Database

记录一次 StarRocks CSV Reader 性能优化过程

这段时间，一位用户间断性的吐槽 StarRocks 有些 SQL 比 Trino、Apache Doris 慢了 n 个数量。起初我们没有太在意，觉得可能是某些 bad case 引起。后面感谢用户的定位，发现了这些查询的数据源大多为 Hive Text 格…

Smith
2023年9月6日
StarRocks
6 条评论

Trino / StarRocks 阿里云 EMR Kerberos 认证指南

Kerberos 是最为头疼的鉴权配置，但是 Hadoop 全家桶绕不开，只能硬着头皮干了。本文以 Trino 和 StarRocks 为例，讲述如何在非 EMR 的节点上，通过一系列魔幻配置连上阿里云 EMR 的 Kerberos。StarRocks 和 Trino …

Smith
2023年8月21日
LakeHouse

StarRocks 中关于 Hadoop Hedged Read 性能测试

Hedged Read 简介 If a read from a block is slow, start up another parallel, ‘hedged’ read against a different block replica. We then take the result of which ever read returns first (the outstanding …

Smith
2023年7月6日
StarRocks
2 条评论

618 之我的刀把金鱼缸主机

自己一直惺惺念念想拥有一台优雅的、强劲的台式机，终于在今年的 618，组上了一台艺术品，废话不多说，先上图：机箱特意选了一个乔思伯 TK-1 金鱼缸机箱，侧弯的玻璃能够完美的展现机箱内部，而且机箱相对小巧一点…

Smith
2023年6月24日
Others
4 条评论