Foreword 推荐序二
回顾数字化历史,从20世纪80年代首次提出大数据概念到今天,全球经济已经完全迈入数据和智能驱动的数字经济时代。数据分析技术也已经成为数字经济时代的核心生产力工具,需要持续革新,以应对组织在数字化转型过程中面临的海量数据、实时分析、敏捷开发等一系列挑战。
经历传统数仓时代和湖仓并存时代,大数据分析技术已经发展到数据湖和实时数仓等技术。这些技术普遍以开源为主,比如Hadoop、Hive、Spark、Flink等,用于满足PB级数千台机器规模的离线计算存储;又比如Druid、ClickHouse、Doris等,用于满足高并发、低延时特点的在线报表与分析、行为分析和画像构建等新型数据应用。
随着云计算的广泛普及和产业互联网的到来,这些技术系统的复杂性和开发维护成本给它们在更广泛产业群体中应用和普及带来很多障碍。用户普遍需要的是一个系统复杂度低、性价比高、简单易用的数据分析平台,这也成为全球范围内数据分析技术的发展潮流。因此,一个全新的现代数据栈时代已经来临,其最重要的特征就是以云数仓为中心,这将是一次数据分析技术的革新和普惠。
作为现代数据栈的核心,云数仓已经呈现出三大变革趋势,即实时化、统一化与云原生化。
❑实时化:从千万级高并发、毫秒级延时、高吞吐走向分钟级的数据产出效率成为数据分析技术的关键词。
❑统一化:湖仓一体、在离线一体、流批一体等智能湖仓的理念加速了平台和接口的统一;计算模型的融合、多模数据类型支持进一步提高存储计算的效能,降低运维门槛。
❑云原生化:数据仓库结合云的软硬件创新、资源弹性、安全可靠、随需而用等云原生特色,从根本上带给用户极致性价比和极简使用体验。
技术和产品创新的本质是契合广大用户的诉求和新技术的演进趋势,SelectDB Cloud在这样的时代背景下应运而生,引领最新的数仓技术和产品创新。
SelectDB作为Apache Doris的商业化公司,是实时数仓技术的引领者。而此次发布的SelectDB Cloud也是当前国内首个真正实现多云中立的云原生实时数仓。作为一个采用完全存算分离架构、随需而用的企业级云数仓,SelectDB Cloud的5项优势在于极致性价比、融合统一、简单易用、企业特性和开源开放。
下面介绍SelectDB Cloud的特性和优势。
首先是超高的性能表现。对于一款数据分析基础软件,性能对于用户来说是关键。与同类产品相比,SelectDB Cloud性能遥遥领先,在宽表聚合场景和多表关联场景上均表现出巨大的性能优势。其中,在宽表聚合场景下,使用SSB-flat测试,SelectDB Cloud是ClickHouse的3.4倍,是Presto的92倍,是业界标杆产品Snowflake的6倍。在多表关联场景下,使用TPC-Hsf100测试,SelectDB Cloud的性能是是RedShit的1.5倍,是ClickHouse的49倍,是业界标杆产品Snowflake的2.5倍。而2022年11月,SelectDB利用强大的技术优势在全球分析型数据库排行榜Click Bench上取得了领先全球知名品牌的优异成绩,多项指标位于世界第一。例如在常用机型c6a.4xlarge、500gbgp2的测试下,SelectDB在未进行任何调优的情况下,查询性能在所有同类产品中位列第一,Hot Run和Cold Run性能得分分别领先第二位35%和25%。在汇集了多个不同机型的总榜中,SelectDB在所有同类型产品中依旧取得了Cold Run查询性能第一,Hot Run查询性能第二的优异成绩。在全部43个SQL中,SelectDB在近半数的查询语句上性能表现最优,成为新的性能标杆。
而SelectDB Cloud如此优异的性能背后有哪些科技支撑呢?首先,SelectDB采用MPP查询框架,这可以充分利用多节点并行和节点内多核并行特性,支持多张大表的分布式重组,以及自适应动态执行技术;其次,向量化的执行引擎可以大幅减少虚函数调用,提高Cache命中率,高效利用SIMD指令,从而使算子的性能提升数十倍;同时,SelectDB采用了列式存储,使得编码、压缩、处理都非常高效,以丰富的索引结构加速数据过滤,以物化视图加速查询效率,同时多种存储模型可以实现不同场景的优化;最后,SelectDB采用RBO和CBO结合的智能优化策略实现性能和效率并重,以短路径优化数万个并发点查询。依靠这些核心技术,SelectDB Cloud成为一款可以在全球市场与一流品牌相媲美的中国新一代云数仓产品。
在用户感知里,高性能往往伴随着高成本。但是,SelectDB Cloud区别于同类产品的一大优势恰恰就是极致的性价比。SelectDB Cloud依托全新的云原生架构设计将成本降低。它全新的存算分离架构,实现了本地磁盘缓存和对象存储的分层分级存储引擎,也实现了计算分离,以及计算资源根据业务的波峰、波谷特点随需弹性扩缩容。这些技术使得SelectDB Cloud的综合成本低至自有部署成本的20%~50%,而性能依然比同类产品快至少1.5倍。当前,不少客户已经享受到SelectDB产品的收益,例如SelectDB帮助海程邦达完成了数仓构建,在供应链物流业务的多样分析场景中,查询延时从56.6s降低到0.649s,查询时间足足降低了99%。
除了高性价比,融合统一也是SelectDB Cloud的一项卖点。SelectDB Cloud致力于解决湖仓并存方案的复杂性和冗余性。传统的企业因系统过多、架构复杂而存在组件多、接口多、维护困难、资源浪费等问题。相比较而言,用户仅需安装SelectDB Cloud一个系统就可以满足多种负载,还能同时支持结构化和半结构化数据分析,以及负载隔离,大大提高了计算效率。而这背后的技术优化来源于3个核心技术,即混合负载、结构化和半结构化数据支持、湖仓一体。
除了上述优势,SelectDB Cloud兼容MySQL连接协议、面向管理员简单便捷的管理控制台、丰富的数据导入方式、分层的用户权限体系、安全便捷的连接方式、开源开放、多云中立等特色,都能很好地满足众多行业用户尤其是传统行业用户的建设需求。
时至今日,SelectDB已经为很多客户提供了产品和服务。在互联网、物流、金融、汽车、交通、零售、制造等领域,帮助用户落地数仓平台,解决业务分析、运营管理、用户洞察、智能决策等多方面需求。例如趣头条、海程邦达、航旅纵横、安踏、BOSS直聘、360数科等诸多知名企业已经开启SelectDB云数仓应用之旅。
创新产品是为了价值赋能!SelectDB将坚持“开源+云”的产品战略,以及开放共赢的合作服务理念,践行“技术普惠”和“价值赋能”。我们愿与全球用户和合作伙伴一起迎接挑战,秉承谦逊之心,持续保持创新,共同勾勒云数仓的未来!为数而生,因云而新,未来一路同行!
连林江
SelectDB创始人兼CEO