Apache Paimon
-
Apache Paimon PK 表的 data distribution
这篇文章围绕 Apache Paimon PK 表的数据分布机制展开,梳理了 Fixed bucket、Dynamic bucket 和 Postpone bucket 三种 bucket 模式的路由方式、优缺点以及底层索引与 compact 行为。文章重点分析了主键不跨分区和跨分区更新两种场景下的差异,指出 fixed/postpone 在跨分区 upsert 时无法保证全局去重,而 dynamic bucket 会通过全局索引和额外写入删除记录来保证结果正确,但代价是 writer 初始化和性能开销更高。最后给出的建议是,在表设计时尽量把分区列纳入主键,以避免重复数据并获得更好的写入性能。