序

人们在谈论分布式数据库等技术时，经常用“未来”等词语描述这一新技术的应用前景，但如今回头看去，才发现“未来已来”！大部分技术人在第一次了解分布式数据库后，通常首先会问“分布式数据库能否替代Oracle”。然而，分布式数据库的设计初衷是解决全新的实际业务问题，即在传统数据库无法满足的业务场景中，与用户一同迎接数字化转型的机遇和挑战，而并非为了单纯地替代某个原有系统。时至今日，虽然传统关系型数据库在核心交易等领域深耕了40多年，但大部分纯交易场景不论在数据量还是商业模式上都没有本质变化，其业务扩展空间十分有限。在企业的数字化转型过程中，数据量会随着业务发展而快速膨胀，这在形成全新业务需求的同时，也为数据库带来了新的市场机遇。

2011年，我和几位来自IBM DB2及华为2012实验室的“数据库老兵”一同创立了巨杉数据库（SequoiaDB）公司。巨杉数据库公司是国内最早涉足并坚持发展分布式数据库的公司之一。公司创立之初的目标是在数字化浪潮中击败Hadoop体系，形成可同时兼顾大数据、联机交易、联机分析的数据基础设施。2020年，业界给这样的系统定义了一个新名词：“湖仓一体”（Data Lakehouse）。

SequoiaDB经历了10年的发展，形成了独具一格的架构体系，产品从最早1.0版的结构化/半结构化海量数据管理，到2.0版支持全类型联机的数据湖，再到3.0版整合分析引擎、提供“湖仓一体”能力，不断演进着。在2020年发布的SequoiaDB 5.0中，更是基于“湖仓一体”架构提供了跨引擎的ACID事务一致性，显著提升了海量数据场景的联机交易扩展能力。至今，SequoiaDB已经成功应用于超过100家金融企业的生产系统，单集群最大数据量达到1.2万亿条，运行时间最长的集群已经稳定上线近8年并持续扩容，成为金融行业稳固的数据基础设施。

本书希望通过系统化的内容，为大家剖析SequoiaDB的整体架构，并为广大用户提供技术运维、开发过程的有效指导。在此，我要感谢在过去10年中，持续推动我们进行新技术创新的所有客户，一个产品的成功离不开客户的参与及打磨。同时，我也要感谢与我们一同打开“湖仓一体”新赛道的合作伙伴。数据库是一个建立于完整生态之上的体系化工程，若没有上下游的紧密结合，将寸步难行。最后，我要感谢所有秉承以客户为中心、坚持长期奋斗的“巨杉人”，是你们打造、守护并深耕着这一片数据的沃土。让我们一同提升数据价值，打造世界级产品！

2021年10月19日

巨杉数据库公司董事长&联合创始人唐迅

本周热推：

云数据中心网络与SDN：技术架构与实现 Python 3爬虫、数据清洗与可视化实战云原生架构：从技术演进到最佳实践计算机视觉之深度学习：使用TensorFlow和Keras训练高级神经网络数据结构：使用C语言（第4版）