Apache Doris
-
2023年10月1日数据湖测试
这篇文章记录了一次针对数据湖查询能力的初步摸底测试,比较了 Trino 427、StarRocks 3.1.3 和 Apache Doris 2.0.1.1 在 TPCH 100G 场景下访问 ORC、Parquet 与 Iceberg+Parquet 数据集的表现。正文先说明测试环境、数据格式、软件版本和结果仅供参考的前提,再逐条列出三种格式上 22 条查询的耗时与失败情况,最后总结了 StarRocks 在完整性上能跑通全部 SQL、Doris 在 Iceberg 上仍不成熟,以及当前测试机器规格过高导致部分结果差异不够稳定等观察。
-
记录一次 StarRocks CSV Reader 性能优化过程
这篇文章复盘了一次 StarRocks CSV Reader 的性能优化过程,从用户反馈性能落后于 Trino、Doris 和 ClickHouse 开始,一步步定位热点并做针对性改造。正文先通过基准测试和火焰图发现列名映射、分区列追加和频繁对象分配带来的开销,再分别介绍预先建立列映射、批量追加分区列、复用 fields 容器和减少 Slice 拷贝等优化思路,以及对应 PR 的效果,最后结合 HDFS、OSS 和缓存场景下的对比测试总结出当前瓶颈已经更多转向外部存储访问。