1.3 Ceph架构和设计思想_Ceph分布式存储实战-QQ阅读中文武侠网

上QQ阅读APP看书，第一时间看更新

1.1 Ceph概述

1．Ceph简介

从2004年提交第一行代码开始到现在，Ceph已经是一个有着十年之久的分布式存储系统软件，目前Ceph已经发展为开源存储界的当红明星，当然这与它的设计思想以及OpenStack的推动有关。

“Ceph is a unified, distributed storage system designed for excellent performance, reliability and scalability.”这句话说出了Ceph的特性，它是可靠的、可扩展的、统一的、分布式的存储系统。Ceph可以同时提供对象存储RADOSGW（Reliable、Autonomic、Distributed、Object Storage Gateway）、块存储RBD（Rados Block Device）、文件系统存储Ceph FS（Ceph Filesystem）3种功能，以此来满足不同的应用需求。

Ceph消除了对系统单一中心节点的依赖，从而实现了真正的无中心结构的设计思想，这也是其他分布式存储系统所不能比的。通过后续章节内容的介绍，你可以看到，Ceph几乎所有优秀特性的实现，都与其核心设计思想有关。

OpenStack是目前最为流行的开源云平台软件。Ceph的飞速发展离不开OpenStack的带动。目前而言，Ceph已经成为OpenStack的标配开源存储方案之一，其实际应用主要涉及块存储和对象存储，并且开始向文件系统领域扩展。这一部分的相关情况，在后续章节中也将进行介绍。

2．Ceph的发展

Ceph是加州大学Santa Cruz分校的Sage Weil（DreamHost的联合创始人）专为博士论文设计的新一代自由软件分布式文件系统。

2004年，Ceph项目开始，提交了第一行代码。

2006年，OSDI学术会议上，Sage发表了介绍Ceph的论文，并在该篇论文的末尾提供了Ceph项目的下载链接。

2010年，Linus Torvalds将Ceph Client合并到内核2.6.34中，使Linux与Ceph磨合度更高。

2012年，拥抱OpenStack，进入Cinder项目，成为重要的存储驱动。

2014年，Ceph正赶上OpenStack大热，受到各大厂商的“待见”，吸引来自不同厂商越来越多的开发者加入，Intel、SanDisk等公司都参与其中，同时Inktank公司被Red Hat公司1.75亿美元收购。

2015年，Red Hat宣布成立Ceph顾问委员会，成员包括Canonical、CERN、Cisco、Fujitsu、Intel、SanDisk和SUSE。Ceph顾问委员会将负责Ceph软件定义存储项目的广泛议题，目标是使Ceph成为云存储系统。

2016年，OpenStack社区调查报告公布，Ceph仍为存储首选，这已经是Ceph第5次位居调查的首位了。

3．Ceph应用场景

Ceph可以提供对象存储、块设备存储和文件系统服务，其对象存储可以对接网盘（owncloud）应用业务等；其块设备存储可以对接（IaaS），当前主流的IaaS云平台软件，例如OpenStack、CloudStack、Zstack、Eucalyptus等以及KVM等，本书后续章节中将介绍OpenStack、CloudStack、Zstack和KVM的对接；其文件系统文件尚不成熟，官方不建议在生产环境下使用。

4．Ceph生态系统

Ceph作为开源项目，其遵循LGPL协议，使用C++语言开发，目前Ceph已经成为最广泛的全球开源软件定义存储项目，拥有得到众多IT厂商支持的协同开发模式。目前Ceph社区有超过40个公司的上百名开发者持续贡献代码，平均每星期的代码commits超过150个，每个版本通常在2000个commits左右，代码增减行数在10万行以上。在过去的几个版本发布中，贡献者的数量和参与公司明显增加，如图1-1所示。

图1-1 部分厂商和软件

5．Ceph用户群

Ceph成为了开源存储的当红明星，国内外已经拥有众多用户群体，下面简单说一下Ceph的用户群。

（1）国外用户群

1）CERN:CERN IT部门在2013年年中开始就运行了一个单一集群超过10000个VM和100000个CPU Cores的云平台，主要用来做物理数据分析。这个集群后端Ceph包括3PB的原始容量，在云平台中作为1000多个Cinder卷和1500多个Glance镜像的存储池。在2015年开始测试单一30 PB的块存储RBD集群。

2）DreamHost:DreamHost从2012年开始运行基于Ceph RADOSGW的大规模对象存储集群，单一集群在3PB以下，大约由不到10机房集群组成，直接为客户提供对象存储服务。

3）Yahoo Flick:Yahoo Flick自2013年开始逐渐试用Ceph对象存储替换原有的商业存储，目前大约由10机房构成，每个机房在1PB～2PB，存储了大约2500亿个对象。

4）大学用户：奥地利的因斯布鲁克大学、法国的洛林大学等。

（2）国内用户群

1）以OpenStack为核心的云厂商：例如UnitedStack、Awcloud等国内云计算厂商。

2）Ceph产品厂商：SanDisk、XSKY、H3C、杉岩数据、SUSE和Bigtera等Ceph厂商。

3）互联网企业：腾讯、京东、新浪微博、乐视、完美世界、平安科技、联想、唯品会、福彩网和魅族等国内互联网企业。

6．社区项目开发迭代

目前Ceph社区采用每半年一个版本发布的方式来进行特性和功能的开发，每个版本发布需要经历设计、开发、新功能冻结，持续若干个版本的Bug修复周期后正式发布下一个稳定版本。其发布方式跟OpenStack差不多，也是每半年发布一个新版本。

Ceph会维护多个稳定版本来保证持续的Bug修复，以此来保证用户的存储安全，同时社区会有一个发布稳定版本的团队来维护已发布的版本，每个涉及之前版本的Bug都会被该团队移植回稳定版本，并且经过完整QA测试后发布下一个稳定版本。

代码提交都需要经过单元测试，模块维护者审核，并通过QA测试子集后才能合并到主线。社区维护一个较大规模的测试集群来保证代码质量，丰富的测试案例和错误注入机制保证了项目的稳定可靠。

7．Ceph版本

Ceph正处于持续开发中并且迅速提升。2012年7月3日，Sage发布了Ceph第一个LTS版本：Argonaut。从那时起，陆续又发布了9个新版本。Ceph版本被分为LTS（长期稳定版）以及开发版本，Ceph每隔一段时间就会发布一个长期稳定版。Ceph版本具体信息见表1-1。欲了解更多信息，请访问https://Ceph.com/category/releases/。

表1-1 Ceph版本信息

1.2 Ceph的功能组件

Ceph提供了RADOS、OSD、MON、LIBRADOS、RBD、RGW和Ceph FS等功能组件，但其底层仍然使用RADOS存储来支撑上层的那些组件，如图1-2所示。

图1-2 Ceph功能组件的整体架构

下面分为两部分来讲述Ceph的功能组件。

（1）Ceph核心组件

在Ceph存储中，包含了几个重要的核心组件，分别是Ceph OSD、Ceph Monitor和Ceph MDS。一个Ceph的存储集群至少需要一个Ceph Monitor和至少两个Ceph的OSD。运行Ceph文件系统的客户端时，Ceph的元数据服务器（MDS）是必不可少的。下面来详细介绍一下各个核心组件。

❑Ceph OSD：全称是Object Storage Device，主要功能包括存储数据，处理数据的复制、恢复、回补、平衡数据分布，并将一些相关数据提供给Ceph Monitor，例如Ceph OSD心跳等。一个Ceph的存储集群，至少需要两个Ceph OSD来实现active +clean健康状态和有效的保存数据的双副本（默认情况下是双副本，可以调整）。注意：每一个Disk、分区都可以成为一个OSD。

❑Ceph Monitor:Ceph的监控器，主要功能是维护整个集群健康状态，提供一致性的决策，包含了Monitor map、OSD map、PG（Placement Group）map和CRUSH map。

❑Ceph MDS：全称是Ceph Metadata Server，主要保存的是Ceph文件系统（File System）的元数据（metadata）。温馨提示：Ceph的块存储和Ceph的对象存储都不需要Ceph MDS。Ceph MDS为基于POSIX文件系统的用户提供了一些基础命令，例如ls、find等命令。

（2）Ceph功能特性

Ceph可以同时提供对象存储RADOSGW（Reliable、Autonomic、Distributed、Object Storage Gateway）、块存储RBD（Rados Block Device）、文件系统存储Ceph FS（Ceph File System）3种功能，由此产生了对应的实际场景，本节简单介绍如下。

RADOSGW功能特性基于LIBRADOS之上，提供当前流行的RESTful协议的网关，并且兼容S3和Swift接口，作为对象存储，可以对接网盘类应用以及HLS流媒体应用等。

RBD（Rados Block Device）功能特性也是基于LIBRADOS之上，通过LIBRBD创建一个块设备，通过QEMU/KVM附加到VM上，作为传统的块设备来用。目前OpenStack、CloudStack等都是采用这种方式来为VM提供块设备，同时也支持快照、COW（Copy On Write）等功能。

Ceph FS（Ceph File System）功能特性是基于RADOS来实现分布式的文件系统，引入了MDS（Metadata Server），主要为兼容POSIX文件系统提供元数据。一般都是当做文件系统来挂载。

后面章节会对这几种特性以及对应的实际场景做详细的介绍和分析。

1.3 Ceph架构和设计思想

1．Ceph架构

Ceph底层核心是RADOS。Ceph架构图如图1-3所示。

图1-3 Ceph架构图

❑RADOS:RADOS具备自我修复等特性，提供了一个可靠、自动、智能的分布式存储。

❑LIBRADOS:LIBRADOS库允许应用程序直接访问，支持C/C++、Java和Python等语言。

❑RADOSGW:RADOSGW是一套基于当前流行的RESTful协议的网关，并且兼容S3和Swift。

❑RBD:RBD通过Linux内核（Kernel）客户端和QEMU/KVM驱动，来提供一个完全分布式的块设备。

❑Ceph FS:Ceph FS通过Linux内核（Kernel）客户端结合FUSE，来提供一个兼容POSIX的文件系统。

具体的RADOS细节以及RADOS的灵魂CRUSH（Controlled Replication Under Scalable Hashing，可扩展哈希算法的可控复制）算法，这两个知识点会在后面的第2、3章详细介绍和分析。

2．Ceph设计思想

Ceph是一个典型的起源于学术研究课题的开源项目。虽然学术研究生涯对于Sage而言只是其光辉事迹的短短一篇，但毕竟还是有几篇学术论文可供参考的。可以根据Sage的几篇论文分析Ceph的设计思想。

理解Ceph的设计思想，首先还是要了解Sage设计Ceph时所针对的应用场景，换句话说，Sage当初做Ceph的初衷的什么？

事实上，Ceph最初针对的应用场景，就是大规模的、分布式的存储系统。所谓“大规模”和“分布式”，至少是能够承载PB级别的数据和成千上万的存储节点组成的存储集群。

如今云计算、大数据在中国发展得如火如荼，PB容量单位早已经进入国内企业存储采购单，DT时代即将来临。Ceph项目起源于2004年，那是一个商用处理器以单核为主流，常见硬盘容量只有几十GB的年代。当时SSD也没有大规模商用，正因如此，Ceph之前版本对SSD的支持不是很好，发挥不了SSD的性能。如今Ceph高性能面临的最大挑战正是这些历史原因，目前社区和业界正在逐步解决这些性能上的限制。

在Sage的思想中，我们首先说一下Ceph的技术特性，总体表现在集群可靠性、集群扩展性、数据安全性、接口统一性4个方面。

❑集群可靠性：所谓“可靠性”，首先从用户角度来说数据是第一位的，要尽可能保证数据不会丢失。其次，就是数据写入过程中的可靠性，在用户将数据写入Ceph存储系统的过程中，不会因为意外情况出现而造成数据丢失。最后，就是降低不可控物理因素的可靠性，避免因为机器断电等不可控物理因素而产生的数据丢失。

❑集群可扩展性：这里的“可扩展”概念是广义的，既包括系统规模和存储容量的可扩展，也包括随着系统节点数增加的聚合数据访问带宽的线性扩展。

❑数据安全性：所谓“数据安全性”，首先要保证由于服务器死机或者是偶然停电等自然因素的产生，数据不会丢失，并且支持数据自动恢复，自动重平衡等。总体而言，这一特性既保证了系统的高度可靠和数据绝对安全，又保证了在系统规模扩大之后，其运维难度仍能保持在一个相对较低的水平。

❑接口统一性：所谓“接口统一”，本书开头就说到了Ceph可以同时支持3种存储，即块存储、对象存储和文件存储。Ceph支持市面上所有流行的存储类型。

根据上述技术特性以及Sage的论文，我们来分析一下Ceph的设计思路，概述为两点：充分发挥存储本身计算能力和去除所有的中心点。

❑充分发挥存储设备自身的计算能力：其实就是采用廉价的设备和具有计算能力的设备（最简单的例子就是普通的服务器）作为存储系统的存储节点。Sage认为当前阶段只是将这些服务器当做功能简单的存储节点，从而产生资源过度浪费（如同虚拟化的思想一样，都是为了避免资源浪费）。而如果充分发挥节点上的计算能力，则可以实现前面提出的技术特性。这一点成为了Ceph系统设计的核心思想。

❑去除所有的中心点：搞IT的最忌讳的就是单点故障，如果系统中出现中心点，一方面会引入单点故障，另一方面也必然面临着当系统规模扩大时的可扩展性和性能瓶颈。除此之外，如果中心点出现在数据访问的关键路径上，也必然导致数据访问的延迟增大。虽然在大多数存储软件实践中，单点故障点和性能瓶颈的问题可以通过为中心点增加HA或备份加以缓解，但Ceph系统最终采用Crush、Hash环等方法更彻底地解决了这个问题。很显然Sage的眼光和设想还是很超前的。

1.4 Ceph快速安装

在Ceph官网上提供了两种安装方式：快速安装和手动安装。快速安装采用Ceph-Deploy工具来部署；手动安装采用官方教程一步一步来安装部署Ceph集群，过于烦琐但有助于加深印象，如同手动部署OpenStack一样。但是，建议新手和初学者采用第一种方式快速部署并且测试，下面会介绍如何使用Ceph-Deploy工具来快速部署Ceph集群。

1.4.1 Ubuntu/Debian安装

本节将介绍如何使用Ceph-Deploy工具来快速部署Ceph集群，开始之前先普及一下Ceph-Deploy工具的知识。Ceph-Deploy工具通过SSH方式连接到各节点服务器上，通过执行一系列脚本来完成Ceph集群部署。Ceph-Deploy简单易用同时也是Ceph官网推荐的默认安装工具。本节先来讲下在Ubuntu/Debian系统下如何快速安装Ceph集群。

1）配置Ceph APT源。

root@localhos`t:~#  echo  deb  http://ceph.com/debian-{ceph-stable-release}/
$(lsb_release -sc) main | sudo tee /etc/apt/sources.list.d/ceph.list

2）添加APT源key。

root@localhost:~#  wget  –q  –O  -'https://ceph.com/git/? p=ceph.git; a=blob_
plain; f=keys/release.asc' | sudo apt-key add -

3）更新源并且安装ceph-deploy。

root@localhost:~# sudo apt-get update &&sudo apt-get install ceph-deploy -y

4）配置各个节点hosts文件。

root@localhost:~# cat /etc/hosts
192.168.1.2  node1
192.168.1.3  node2
192.168.1.4  node3

5）配置各节点SSH无密码登录，这就是本节开始时讲到的Ceph-Deploy工具要用过SSH方式连接到各节点服务器，来安装部署集群。输完ssh-keygen命令之后，在命令行会输出以下内容。

root@localhost:~# ssh-keygen
Generating public/private key pair.
Enter file in which to save the key (/ceph-client/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /ceph-client/.ssh/id_rsa.
Your public key has been saved in /ceph-client/.ssh/id_rsa.pub

6）复制key到各节点。

root@localhost:~# ssh-copy-idnode1
root@localhost:~# ssh-copy-idnode2
root@localhost:~# ssh-copy-idnode3

7）在执行ceph-deploy的过程中会生成一些配置文件，建议创建一个目录，例如my-cluster。

root@localhost:~# mkdir my-cluster
root@localhost:~# cd my-cluster

8）创建集群（Cluster），部署新的monitor节点。

root@localhost:~# ceph-deploy new {initial-monitor-node(s)}

例如：

root@localhost:~# ceph-deploy new node1

9）配置Ceph.conf配置文件，示例文件是默认的，可以根据自己情况进行相应调整和添加。具体优化情况本书后面会介绍。

[global]
fsid = 67d997c9-dc13-4edf-a35f-76fd693aa118
mon_initial_members = node1, node2
mon_host = 192.168.1.2,192.168.1.3
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx
filestore_xattr_use_omap = true
<! -----以上部分都是ceph-deploy默认生成的---->
public network = {ip-address}/{netmask}
cluster network={ip-addesss}/{netmask}
<! -----以上两个网络是新增部分，默认只是添加public network，一般生产都是定义两个网络，集
群网络和数据网络分开-------->
[osd]
……
[mon]
……

这里配置文件不再过多叙述。

10）安装Ceph到各节点。

root@localhost:~# ceph-deploy install {ceph-node}[{ceph-node} ...]

例如：

root@localhost:~# ceph-deploy install node1 node2 node3

11）获取密钥key，会在my-cluster目录下生成几个key。

root@localhost:~# ceph-deploy mon create-initial

12）初始化磁盘。

root@localhost:~# ceph-deploy disk zap {osd-server-name}:{disk-name}

例如：

root@localhost:~# ceph-deploy disk zap node1:sdb

13）准备OSD。

root@localhost:~# ceph-deploy osd prepare {node-name}:{data-disk}[:{journal-disk}]

例如：

root@localhost:~# ceph-deploy osd prepare node1:sdb1:sdc

14）激活OSD。

root@localhost:~# ceph-deploy osd activate {node-name}:{data-disk-partition}[:{journal-disk-partition}]

例如：

root@localhost:~# ceph-deploy osd activate node1:sdb1:sdc

15）分发key。

root@localhost:~# ceph-deploy admin {admin-node} {ceph-node}

例如：

root@localhost:~# ceph-deploy admin node1 node2 node3

16）给admin key赋权限。

root@localhost:~# sudo chmod +r /etc/ceph/ceph.client.admin.keyring

17）查看集群健康状态，如果是active+clean状态就是正常的。

root@localhost:~# ceph health

提示

安装Ceph前提条件如下。

① 时间要求很高，建议在部署Ceph集群的时候提前配置好NTP服务器。

② 对网络要求一般，因为Ceph源在外国有时候会被屏蔽，解决办法多尝试机器或者代理。

1.4.2 RHEL/CentOS安装

本节主要讲一下在RHEL/CentOS系统下如何快速安装Ceph集群。

1）配置Ceph YUM源。

root@localhost:~# vim /etc/yum.repos.d/ceph.repo
[ceph-noarch]
name=Cephnoarch packages
baseurl=http://ceph.com/rpm-{ceph-release}/{distro}/noarch
enabled=1
gpgcheck=1
type=rpm-md
gpgkey=https://ceph.com/git/? p=ceph.git; a=blob_plain; f=keys/release.asc

2）更新源并且安装ceph-deploy。

root@localhost:~# yum update &&yum install ceph-deploy -y

3）配置各个节点hosts文件。

root@localhost:~# cat /etc/hosts
192.168.1.2  node1
192.168.1.3  node2
192.168.1.4  node3

4）配置各节点SSH无密码登录，通过SSH方式连接到各节点服务器，以安装部署集群。输入ssh-keygen命令，在命令行会输出以下内容。

root@localhost:~# ssh-keygen
Generating public/private key pair.
Enter file in which to save the key (/ceph-client/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /ceph-client/.ssh/id_rsa.
Your public key has been saved in /ceph-client/.ssh/id_rsa.pub

5）拷贝key到各节点。

root@localhost:~# ssh-copy-id node1
root@localhost:~# ssh-copy-id node2
root@localhost:~# ssh-copy-id node3

6）在执行ceph-deploy的过程中会生成一些配置文件，建议创建一个目录，例如my-cluster。

root@localhost:~# mkdir my-cluster
root@localhost:~# cd my-cluster

7）创建集群（Cluster），部署新的monitor节点。

root@localhost:~# ceph-deploy new {initial-monitor-node(s)}

例如：

root@localhost:~# ceph-deploy new node1

8）配置Ceph.conf配置文件，示例文件是默认的，可以根据自己情况进行相应调整和添加。具体优化情况本书后面会介绍。

[global]
fsid = 67d997c9-dc13-4edf-a35f-76fd693aa118
mon_initial_members = node1, node2
mon_host = 192.168.1.2,192.168.1.3
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx
filestore_xattr_use_omap = true
<! -----以上部分都是ceph-deploy默认生成的---->
public network = {ip-address}/{netmask}
cluster network={ip-addesss}/{netmask}
<! -----以上两个网络是新增部分，默认只是添加public network，一般生产都是定义两个网络，集群网络和数据网络分开-------->
[osd]
……
[mon]
……

这里配置文件不再过多叙述。

9）安装Ceph到各节点。

root@localhost:~# ceph-deploy install {ceph-node}[{ceph-node} ...]

例如：

root@localhost:~# ceph-deploy install node1 node2 node3

10）获取密钥key，会在my-cluster目录下生成几个key。

root@localhost:~# ceph-deploy mon create-initial

11）初始化磁盘。

root@localhost:~# ceph-deploy disk zap {osd-server-name}:{disk-name}

例如：

root@localhost:~# ceph-deploy disk zap node1:sdb

12）准备OSD。

root@localhost:~# ceph-deploy osd prepare {node-name}:{data-disk}[:{journal-disk}]

例如：

root@localhost:~# ceph-deploy osd prepare node1:sdb1:sdc

13）激活OSD。

root@localhost:~# ceph-deploy osd activate {node-name}:{data-disk-partition}[:{journal-disk-partition}]

例如：

root@localhost:~# ceph-deploy osd activate node1:sdb1:sdc

14）分发key。

root@localhost:~# ceph-deploy admin {admin-node} {ceph-node}

例如：

root@localhost:~# ceph-deploy admin node1 node2 node3

15）给admin key赋权限。

root@localhost:~# sudo chmod +r /etc/ceph/ceph.client.admin.keyring

16）查看集群健康状态，如果是active + clean状态就是正常的。

root@localhost:~# ceph health

1.5 本章小结

本章主要从Ceph的历史背景、发展事件、Ceph的架构组件、功能特性以及Ceph的设计思想方面介绍了Ceph，让大家对Ceph有一个全新的认识，以便后面更深入地了解Ceph。