更多资源
我希望你觉得这本书有用,并且您现在对查询引擎的内部结构有更好的了解。如果您认为某些主题没有被充分涵盖,或者根本没有涵盖,我很乐意听到你的想法,以便我考虑在未来的修订中添加额外的内容。
可以在 Leanpub 网站 上的公共论坛上发布反馈,或者通过 twitter 直接给我 @andygrove_io 留言。
开源项目
有许多包含查询引擎的开源项目,使用这些项目可以更好的了解这个主题。以下只是流行的开源查询引擎的几个示例。
- Apache Arrow
- Apache Calcite
- Apache Drill
- Apache Hadoop
- Apache Hive
- Apache Impala
- Apache Spark
- Facebook Presto
- NVIDIA RAPIDS Accelerator for Apache Spark
YouTube
我最近才发现 Andy Pavlo 的系列讲座,可以在 YouTube 上找到(here)。这不仅仅涵盖了查询引擎,还广泛地介绍了查询优化和执行方面的内容。强烈推荐观看这些视频。
样本数据
前面的章节引用了 纽约市出租车及豪华轿车委员会行程记录数据 数据集。黄色和绿色出租车行程记录包括上车和下车日期/时间、上车和下车地点、行程距离、明细票价、费率类型、付款类型和司机报告的乘客数量的字段。数据以 CSV 格式提供。 KQuery 项目包含用于将这些 CSV 文件转换为 Parquet 格式的源代码。
可以通过网站上的链接或直接从 S3 来下载数据。例如,Linux 或 Mac 上的用户可以通过以下命令使用 curl
或者 wget
下载 Yellow Taxis 2019 年 1 月的数据,还可以创建脚本以根据文件命名规范下载其他文件。
wget https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-01.csv
这本书还可通过 https://leanpub.com/how-query-engines-work 购买 ePub、MOBI 和 PDF格式版本。
Copyright © 2020-2023 Andy Grove. All rights reserved.