浅谈 HDFS 慢节点的解决方案
这段时间在和客户一起优化查询慢的问题,发现大量 SQL的查询性能不达标是因为 HDFS 慢节点的问题。有时候整个 IO 性能会差到,拉 200KB 的数据能花 1分钟,这直接导致一个 OLAP 数据库的性能和 Hive 差不多。 但是…
“This is the way”
“This is the way”
这段时间在和客户一起优化查询慢的问题,发现大量 SQL的查询性能不达标是因为 HDFS 慢节点的问题。有时候整个 IO 性能会差到,拉 200KB 的数据能花 1分钟,这直接导致一个 OLAP 数据库的性能和 Hive 差不多。 但是…
不少用华为云的 OBS 用户,不知道怎么配置 StarRocks 才能正常访问 OBS,这里写一篇教程,简单说一下。 访问华为云有两种办法,一种是走 S3 的兼容 API,另外一种则是通过华为云自己官方的 Hadoop JAR 包进行访问。…
我发现自己每次用 Spark 造 Iceberg 表都要耗费老大的劲,官方文档总是没有一个现成的 Demo,网上也搜索不到,全靠自己琢磨。故在这里记录一下,顺带帮助一下可能需要的人。 本地 Iceberg Spark-SQL 启动 Iceberg:…
鄙人在之前一篇文章中,简单的介绍了将 Hedged Read 引入 StarRocks 的效果,见 StarRocks 中关于 Hadoop Hedged Read 性能测试 这篇文章。当时得出来的结论是在存在慢节点的情况下,hedged read 一定是正优化的。…
本文简单梳理一下自己在使用 StarRocks 时遇到的一些疑难杂症,仅供参考,本文会持续更新。 问题列表 ERROR 1064 (HY000): BE access S3 file failed, SdkResponseCode=-1, SdkErrorType=99, SdkErrorMessage=curlC…
OLAP 有 ClickBench,向量化有 VectorDBBench,那么数据湖就不能有一个 DataLakeBench?正可谓知己知彼,方能百战不殆。国庆自己整了一个 TPCH 100G 测试,来测试目前国内几个 AP 系统在湖上的查询能力。 这次只是…
这段时间,一位用户间断性的吐槽 StarRocks 有些 SQL 比 Trino、Apache Doris 慢了 n 个数量。起初我们没有太在意,觉得可能是某些 bad case 引起。后面感谢用户的定位,发现了这些查询的数据源大多为 Hive Text 格…
Kerberos 是最为头疼的鉴权配置,但是 Hadoop 全家桶绕不开,只能硬着头皮干了。本文以 Trino 和 StarRocks 为例,讲述如何在非 EMR 的节点上,通过一系列魔幻配置连上阿里云 EMR 的 Kerberos。StarRocks 和 Trino …
Hedged Read 简介 If a read from a block is slow, start up another parallel, ‘hedged’ read against a different block replica. We then take the result of which ever read returns first (the outstanding …
自己一直惺惺念念想拥有一台优雅的、强劲的台式机,终于在今年的 618,组上了一台艺术品,废话不多说,先上图: 机箱特意选了一个乔思伯 TK-1 金鱼缸机箱,侧弯的玻璃能够完美的展现机箱内部,而且机箱相对小巧一点…