StarRocks
-
从 StarRocks 离开,再出发
这篇文章以时间线的方式回顾了作者从 2022 年加入 StarRocks 到 2024 年底离开的两年经历。正文先记录了当年春招选择创业公司、成为公司第一个研发校招生、在数据湖团队边学边做以及公司取消大小周、经历融资波动和裁员的过程,再写到 2024 年参与客户项目、感受到创业公司的起伏与团队变化,以及最终因为薪资、结婚开销和职业阶段变化而选择离开,最后把这种不舍、感谢和重新出发的心境完整留了下来。
-
Apache Polaris 从入门到精通
这篇文章从 Iceberg REST catalog 的标准接口讲起,系统介绍了 Apache Polaris 作为开源 REST catalog 管理系统的整体架构、权限模型和实际用法。正文先说明 Polaris 如何基于 REST API 为不同计算引擎提供统一 catalog 服务,以及 access control 与 vended-credentials 两大核心能力;随后拆解 catalog、namespace、table、view、principal、principal role、catalog role 和 privilege 之间的关系,并用一个只读 benchmark catalog 的案例演示如何创建资源、配置角色与权限,最后补充了 Polaris 在 UI、compaction 和生态完善度上的不足。
-
How to deploy StarRocks with IAM enabled in AWS EKS?
This article records a practical walkthrough for deploying StarRocks on AWS EKS with IAM enabled, using CloudShell, eksctl, Helm, and IAM service accounts. It starts from creating an EKS cluster and fixing pod scheduling issues by reducing FE and BE resource requests, then shows how to bind IAM roles to StarRocks pods so they can access services such as S3 and Glue, and finally covers applying the updated Helm values, connecting to the cluster, and cleaning up both the IAM service account and the EKS cluster after the test.
-
StarRocks 华为云 OBS 配置
这篇文章介绍了 StarRocks 访问华为云 OBS 的两套配置思路,并重点解释为什么并行文件系统场景需要 FE 和 BE 分别采用不同的访问实现。正文先说明普通 OBS 桶可以直接通过 S3 兼容 API 配置鉴权和外部表,但路径中含等号时需要额外参数避免 403;随后分析并行文件系统在 list 超过 1000 个文件时的兼容性问题,并给出 FE 使用华为云官方 Hadoop Jar、BE 继续走 S3 兼容 API,以及在 RCFile、Avro 等 JNI 场景下同步 Jar 和 core-site.xml 的完整方案。
-
StarRocks 常见疑难杂症
这篇文章汇总了作者在使用 StarRocks 过程中遇到的一些常见疑难杂症及处理办法。当前内容主要围绕对象存储访问问题展开,包括官方 Release 包在 Ubuntu 上运行时因 SSL 证书路径不一致导致 AWS SDK 报错,以及使用 KS3、OBS 等兼容 S3 的存储时因路径中包含等号触发 403 的兼容性问题,并给出了通过补充证书文件和调整配置项规避这些故障的方法。
-
2023年10月1日数据湖测试
这篇文章记录了一次针对数据湖查询能力的初步摸底测试,比较了 Trino 427、StarRocks 3.1.3 和 Apache Doris 2.0.1.1 在 TPCH 100G 场景下访问 ORC、Parquet 与 Iceberg+Parquet 数据集的表现。正文先说明测试环境、数据格式、软件版本和结果仅供参考的前提,再逐条列出三种格式上 22 条查询的耗时与失败情况,最后总结了 StarRocks 在完整性上能跑通全部 SQL、Doris 在 Iceberg 上仍不成熟,以及当前测试机器规格过高导致部分结果差异不够稳定等观察。
-
记录一次 StarRocks CSV Reader 性能优化过程
这篇文章复盘了一次 StarRocks CSV Reader 的性能优化过程,从用户反馈性能落后于 Trino、Doris 和 ClickHouse 开始,一步步定位热点并做针对性改造。正文先通过基准测试和火焰图发现列名映射、分区列追加和频繁对象分配带来的开销,再分别介绍预先建立列映射、批量追加分区列、复用 fields 容器和减少 Slice 拷贝等优化思路,以及对应 PR 的效果,最后结合 HDFS、OSS 和缓存场景下的对比测试总结出当前瓶颈已经更多转向外部存储访问。
-
Trino / StarRocks 阿里云 EMR Kerberos 认证指南
这篇文章记录了如何在非 EMR 节点上让 Trino 和 StarRocks 正常连接阿里云 EMR 的 Kerberos 环境。正文先从创建带 Kerberos 的 EMR 和测试 ECS 开始,说明如何准备 principal、keytab 和 krb5 配置,再分别给出 Trino Hive catalog 与 StarRocks FE/BE 所需的 core-site.xml、hdfs-site.xml、hive-site.xml 和 JVM 参数设置,最后汇总了 Kerberos 超时、Hive Metastore 连接失败和 HDFS BlockMissingException 等典型报错的定位与修复方法。
-
StarRocks 中关于 Hadoop Hedged Read 性能测试
这篇文章围绕 StarRocks 接入 HDFS 后启用 Hadoop Hedged Read 的效果做了一轮系统性能测试,重点观察不同线程池大小和超时阈值对查询耗时的影响。正文先介绍 Hedged Read 的工作机制和实验环境,再分别在单线程、慢节点和高并发 CPU 打满等场景下比较多组配置结果,最后结合 DFSClient 的线程池实现分析其共享方式和扩缩容行为,并给出较大的超时阈值配合较宽线程池的推荐配置。
-
StarRocks 全新云厂商鉴权系统食用指南
这篇文章介绍了 StarRocks 3.0 之后统一云厂商鉴权参数体系的使用方法和设计思路,目标是用一套一致的配置支持不同模块访问多种云存储与元数据服务。正文先列出 AWS、GCP、Azure 以及兼容 S3 的国内云厂商所支持的鉴权模式,再以 AWS S3 和 Glue 为例说明新参数在 catalog、导入导出和备份等场景中的配置方式,最后补充 FE 与 BE 在实现上对 Hadoop Jar、S3 SDK 和 JindoSDK 的依赖差异,以及现阶段鉴权参数校验和报错定位上的不足。