研究

Delta Lake:雲對象存儲上的高性能ACID表存儲

作者:Michael Armbrust, Tathagata Das,孫立文,Burak Yavuz,祝世雄,Mukul Murthy, Joseph Torres, Herman van Hovell, Adrian Ionescu, Alicja Łuszczak, michaovo ' Switakowski, michaovo Szafra ' nski,小李,Takuya Ueshin, Mostafa Mokhtar, Peter Boncz, Ali Ghodsi, Sameer Paranjpye, Pieter Senster, Reynold Xin, Matei Zaharia

下載論文

摘要

像Amazon S3這樣的雲對象存儲是這個星球上規模最大、成本效益最高的存儲係統之一,這使得存儲大型數據倉庫和數據湖具有吸引力。不幸的是,它們作為鍵-值存儲的實現使得難以實現ACID事務和高性能:像列出對象這樣的元數據操作是昂貴的,一致性保證是有限的。在本文中,我們介紹了Delta Lake,一個最初由Databricks開發的雲對象存儲上的開源ACID表存儲層。Delta Lake使用壓縮成Apache Parquet格式的事務日誌,為大型表格數據集提供ACID屬性、時間旅行和顯著更快的元數據操作(例如,快速搜索與查詢相關的數十億個表分區的能力)。它還利用這種設計提供高級特性,如自動數據布局優化、upserts、緩存和審計日誌。Delta Lake表可以從Apache Spark、Hive、Presto、Redshift和其他係統訪問。Delta Lake部署在數千個Databricks客戶上,這些客戶每天處理艾字節級的數據,其中最大beplay体育app下载地址的實例管理艾字節級的數據集和數十億個對象。


相關內容

作者:Michael Armbrust, Ali Ghodsi, Reynold Xin, Matei Zaharia

作者:邁克爾·阿姆布魯斯,塔塔加塔·達斯,約瑟夫·托雷斯,Burak Yavuz,朱世雄,Reynold Xin, Ali Ghodsi, Ion Stoica, Matei Zaharia

作者:Shoumik Palkar, Firas Abuzaid, Peter Bailis, Matei Zaharia

作者:Michael armburst, reynolds S. Xin,程濂,尹懷,Davies Liu, Joseph K. Bradley, Xiangrui孟,Tomer Kaftan, Michael J. Franklin, Ali Ghodsi, Matei Zaharia

作者:reynolds S. Xin, Josh Rosen, Matei Zaharia, Michael J. Franklin, Scott Shenker, Ion Stoica

Baidu
map