将数据流式传输到地块文件中的DynamoDB时的S3移除和更新


我们已经创建了一个快速概念验证来将DynamoDB表中的更改流式传输到Lambda函数。此函数执行一些基本的ETL处理,并将记录放在Firehose上。此Firehose将拼图文件写入S3,用于某些雅典娜查询。这对于插入非常有效且简单,但我想知道是否有处理删除或更新的提示或最佳实践。

我依稀记得在过去的一次会议上,一些人运行批处理作业来压缩数据并删除标记的数据,但我找不到任何有关这方面的细节。变更数据捕获是另一个术语,但我还没有看到明确的例子。在这个流设置中有没有处理更新的方法?

更新:我可能把我的问题表达得很糟糕,因为很多焦点都集中在S3上。我真的在寻找一个流程来处理DynamoDB流中传入的删除和更新,将它们保存在某个地方,然后定期更新Parquet文件以反映这些更新和删除。也许还需要一些压缩,但在我的实验的这个阶段,这是“很好的”。

转载请注明出处:http://www.runhoujixie.com/article/20230526/1852484.html