沧海月明

Lakehouse

自适应 Cache 之 Starburst Warp Speed

Starburst 的 Warp Speed 技术利用机器学习算法，为 Trino 查询自动预热数据，显著提升性能。本文通过对 Warp Speed 架构的解析，来说明如何在 Lakehouse 中做好 cache 这个特性。...
- Smith
- 4月21日
- 0
- 23
Big Data

浅谈 HDFS 慢节点的解决方案

在优化 HDFS 查询性能时，慢节点问题会显著影响 SQL 的查询效率。本文浅谈了目前解决 HDFS 慢节点的几种思路。...
- Smith
- 3月25日
- 1
- 210
StarRocks

StarRocks 华为云 OBS 配置

介绍如何正确配置 StarRocks，使其能够正常访问华为云的 OBS 和并行文件系统。...
- Smith
- 3月2日
- 3
- 225
Big Data

Spark-SQL 有用的SQL

我发现自己每次用 Spark 造Iceberg表都要耗费老大的劲，官方文档总是没有一个现成的Demo，网上也搜索不到，全靠自己琢磨。故在这里记录一下，顺带帮助一下可能需要的人。 Iceberg Spark-SQL 启动 Iceberg： ./bin/spark-sql --packages org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.4.…...
- Smith
- 23年11月12日
- 3
- 519
Big Data

HDFS Hedged Read 的利弊分析

HDFS Hedged read 是一种优化 HDFS 客户端读取文件性能的方法。它会在存在慢节点的情况下，通过申请多个内存来提高读取性能。但是，由于 Hedged read 会频繁申请内存，可能会导致内存消耗过大，从而影响系统性能。因此，HDFS 并没有默认开启 Hedged read 功能。在使用 Hedged read 时，需要注意内存消耗的问题，以避免对系统性能造成负面影响。...
- Smith
- 23年11月12日
- 1
- 368
StarRocks

StarRocks 常见疑难杂症

本文简单梳理一下自己在使用 StarRocks 时遇到的一些疑难杂症，仅供参考，本文会持续更新。问题列表 ERROR 1064 (HY000): BE access S3 file failed, SdkResponseCode=-1, SdkErrorType=99, SdkErrorMessage=curlCode: 77, Problem with the SSL CA cert (pat…...
- Smith
- 23年10月28日
- 0
- 491
Database

2023年10月1日数据湖测试

OLAP 有 ClickBench，向量化有 VectorDBBench，那么数据湖就不能有一个 DataLakeBench？正可谓知己知彼，方能百战不殆。国庆自己整了一个 TPCH 100G 测试，来测试目前国内几个 AP 系统在湖上的查询能力。这次只是一个初步摸底，为后续跑通 DataLakeBench 流程做准备。测试数据集分为 ORC、Parquet 和 Iceberg + Parqu…...
- Smith
- 23年10月1日
- 0
- 635
StarRocks

记录一次 StarRocks CSV Reader 性能优化过程

这段时间，一位用户间断性的吐槽 StarRocks 有些 SQL 比 Trino、Apache Doris 慢了 n 个数量。起初我们没有太在意，觉得可能是某些 bad case 引起。后面感谢用户的定位，发现了这些查询的数据源大多为 Hive Text 格式（也就是 CSV 格式）。天将降大任于斯人也，领导便把这个重任交付与我。其实问题一到手，我是非常疑惑的，这个 CSV Reader 在我入…...
- Smith
- 23年9月6日
- 6
- 672