按时间归档:2023年

  • Spark-SQL 有用的 SQL

    我发现自己每次用 Spark 造 Iceberg 表都要耗费老大的劲,官方文档总是没有一个现成的 Demo,网上也搜索不到,全靠自己琢磨。故在这里记录一下,顺带帮助一下可能需要的人…

    2023年11月12日
    1.9K3
  • HDFS Hedged Read 的利弊分析

    HDFS Hedged read 是一种优化 HDFS 客户端读取文件性能的方法。它会在存在慢节点的情况下,通过申请多个内存来提高读取性能。但是,由于 Hedged read 会频繁申请内存,可能会导致内存消耗过大,从而影响系统性能。因此,HDFS 并没有默认开启 Hedged read 功能。在使用 Hedged read 时,需要注意内存消耗的问题,以避免对系统性能造成负面影响。

    2023年11月12日
    1.4K2
  • StarRocks 常见疑难杂症

    本文简单梳理一下自己在使用 StarRocks 时遇到的一些疑难杂症,仅供参考,本文会持续更新。 问题列表 ERROR 1064 (HY000): BE access S3 fil…

    2023年10月28日
    1.7K0
  • 2023年10月1日数据湖测试

    OLAP 有 ClickBench,向量化有 VectorDBBench,那么数据湖就不能有一个 DataLakeBench?正可谓知己知彼,方能百战不殆。国庆自己整了一个 TPC…

    2023年10月1日
    1.4K0
  • 记录一次 StarRocks CSV Reader 性能优化过程

    这段时间,一位用户间断性的吐槽 StarRocks 有些 SQL 比 Trino、Apache Doris 慢了 n 个数量。起初我们没有太在意,觉得可能是某些 bad case …

    2023年9月6日
    1.6K6
  • Trino / StarRocks 阿里云 EMR Kerberos 认证指南

    Kerberos 是最为头疼的鉴权配置,但是 Hadoop 全家桶绕不开,只能硬着头皮干了。本文以 Trino 和 StarRocks 为例,讲述如何在非 EMR 的节点上,通过一…

    2023年8月21日
    1.3K0
  • StarRocks 中关于 Hadoop Hedged Read 性能测试

    Hedged Read 简介 If a read from a block is slow, start up another parallel, ‘hedged’ read ag…

    2023年7月6日
    1.2K2
  • 618 之我的刀把金鱼缸主机

    自己一直惺惺念念想拥有一台优雅的、强劲的台式机,终于在今年的 618,组上了一台艺术品,废话不多说,先上图: 机箱特意选了一个乔思伯 TK-1 金鱼缸机箱,侧弯的玻璃能够完美的展现…

    2023年6月24日
    1.5K4
  • StarRocks 全新云厂商鉴权系统食用指南

    随着 StarRocks 3.0 的发布,彻底结束了过去云厂商鉴权参数军阀混战的年代,现在采用统一的全新鉴权参数。而且这些鉴权参数可以使用在任何需要发生鉴权的地方,可以是数据湖的 …

    2023年4月9日
    1.9K7
  • 云计算新人之公有云 IAM

    本篇文章简单的说下目前公有云厂商的 IAM 机制,以全球最大的三个云厂商为例(AWS,Azure 和 GCP),在说明的过程顺带浅谈一下它们家存储产品(也就是 S3,Azure B…

    2023年3月26日
    1.9K7