分布式存储 Ceph 中 PG 各种状态详解
作者:李航 来源:talkwithtrend 原文链接: https://mp.weixin.qq.com/s/a3mTVNQWYvMuEz8X_uCRMA 1. PG介绍 这次主要来分享Ceph中的PG各种状态详解,PG是最复杂和难于理解的概念之一,PG的复杂如下: - 在架构层次上,PG位于RADOS层的中间。 a. 往上负责接收和处理来自客户端的请求。 b. 往下负责将这些数据请求翻译为能够被本地对象存储所能理解的事务。 - 是组成存储池的基本单位,存储池中的很多特性,都是直接依托于PG实现的。 - 面向容灾域的备份策略使得一般而言的PG需要执行跨节点的分布式写,因此数据在不同节点之间的同步、恢复时的数据修复也都是依赖PG完成。 2. PG状态表 正常的PG状态是 100%的active + clean, 这表示所有的PG是可访问的,所有副本都对全部PG都可用。 如果Ceph也报告PG的其他的警告或者错误状态。PG状态表: 3. 状态详解及故障模拟复现 3.1 Degraded 3.1.1 说明 降级:由上文可以得知,每个PG有三个副本,分别保存在不同的OSD中,在非故障情况下,这个PG是active+clean 状态,那么,如果PG 的 副本osd.4 挂掉了,这个 PG 是降级状态。 3.1.2 故障模拟
故障总结: 为了模拟故障,(size = 3, min_size = 2) 我们手动停止了 osd.1,然后查看PG状态,可见,它此刻的状态是active+undersized+degraded,当一个 PG 所在的 OSD 挂掉之后,这个 PG 就会进入undersized+degraded 状态,而后面的[0,2]的意义就是还有两个副本存活在 osd.0 和 osd.2 上, 并且这个时候客户端可以正常读写IO。 3.1.3 总结
3.2 Peered 3.2.1 说明
3.2.2 故障模拟 a. 停掉两个副本osd.1,osd.0 $ systemctl stop ceph-osd@1 $ systemctl stop ceph-osd@0 b. 查看集群健康状态 c. 客户端IO操作(夯住) 读取对象到文件,夯住IO $ bin/rados -p test_pool get myobject ceph.conf.old 故障总结: - 现在pg 只剩下osd.2上存活,并且 pg 还多了一个状态:peered,英文的意思是仔细看,这里我们可以理解成协商、搜索。 - 这时候读取文件,会发现指令会卡在那个地方一直不动,为什么就不能读取内容了,因为我们设置的 min_size=2 ,如果存活数少于2,比如这里的 1 ,那么就不会响应外部的IO请求。 d. 调整min_size=1可以解决IO夯住问题 设置min_size = 1 $ bin/ceph osd pool set test_pool min_size 1 set pool 1 min_size to 1 e. 查看集群监控状态 f. 客户端IO操作 读取对象到文件中 $ ll -lh ceph.conf* -rw-r--r-- 1 root root 6.1K Jun 25 14:01 ceph.conf -rw-r--r-- 1 root root 6.1K Jul 3 20:11 ceph.conf.old -rw-r--r-- 1 root root 6.1K Jul 3 20:11 ceph.conf.old.1 故障总结: - 可以看到,PG状态Peered没有了,并且客户端文件IO可以正常读写了。 - 当min_size=1时,只要集群里面有一份副本活着,那就可以响应外部的IO请求。 3.2.3 总结
3.3 Remapped 3.3.1 说明
3.3.2 故障模拟 a. 停止osd.x $ systemctl stop ceph-osd@x b. 间隔5分钟,启动osd.x $ systemctl start ceph-osd@x c. 查看PG状态 d. 客户端IO操作 rados读写正常 rados -p test_pool put myobject /tmp/test.log 3.3.3 总结 在 OSD 挂掉或者在扩容的时候PG 上的OSD会按照Crush算法重新分配PG 所属的osd编号。并且会把 PG Remap到别的OSD上去。 Remapped状态时,PG当前Acting Set与Up Set不一致。 客户端IO可以正常读写。 3.4 Recovery 3.4.1 说明 指PG通过PGLog日志针对数据不一致的对象进行同步和修复的过程。 3.4.2 故障模拟 a. 停止osd.x $ systemctl stop ceph-osd@x b. 间隔1分钟启动osd.x osd$ systemctl start ceph-osd@x c. 查看集群监控状态 $ ceph health detail HEALTH_WARN Degraded data redundancy: 183/57960 objects degraded (0.316%), 17 pgs unclean, 17 pgs degraded PG_DEGRADED Degraded data redundancy: 183/57960 objects degraded (0.316%), 17 pgs unclean, 17 pgs degraded pg 1.19 is active+recovery_wait+degraded, acting [29,9,17] 3.4.3 总结 Recovery是通过记录的PGLog进行恢复数据的。 记录的PGLog 在osd_max_pg_log_entries=10000条以内,这个时候通过PGLog就能增量恢复数据。 3.5 Backfill 3.5.1 说明
3.5.2 故障模拟 a. 停止osd.x $ systemctl stop ceph-osd@x b. 间隔10分钟启动osd.x $ osd systemctl start ceph-osd@x c. 查看集群健康状态 $ ceph health detail HEALTH_WARN Degraded data redundancy: 6/57927 objects degraded (0.010%), 1 pg unclean, 1 pg degraded PG_DEGRADED Degraded data redundancy: 6/57927 objects degraded (0.010%), 1 pg unclean, 1 pg degraded pg 3.7f is active+undersized+degraded+remapped+backfilling, acting [21,29] 3.5.3 总结 无法根据记录的PGLog进行恢复数据时,就需要执行Backfill过程全量恢复数据。 如果超过osd_max_pg_log_entries=10000条, 这个时候需要全量恢复数据。 3.6 Stale 3.6.1 说明
3.6.2 故障模拟 a. 分别停止PG中的三个副本osd, 首先停止osd.23 $ systemctl stop ceph-osd@23 b. 然后停止osd.24 $ systemctl stop ceph-osd@24 c. 查看停止两个副本PG 1.45的状态 d. 在停止PG 1.45中第三个副本osd.10 $ systemctl stop ceph-osd@10 e. 查看停止三个副本PG 1.45的状态 f. 客户端IO操作 读写挂载磁盘IO 夯住 ll /mnt/ 故障总结: 先停止同一个PG内两个副本,状态是undersized+degraded+peered。 然后停止同一个PG内三个副本,状态是stale+undersized+degraded+peered。 3.6.3 总结 当出现一个PG内三个副本都挂掉的情况,就会出现stale状态。 此时该PG不能提供客户端读写,IO挂起夯住。 Primary超时未向mon上报pg相关的信息(例如网络阻塞),也会出现stale状态。 3.7 Inconsistent 3.7.1 说明
3.7.2 故障模拟 a. 删除PG 3.0中副本osd.34头文件 $ rm -rf /var/lib/ceph/osd/ceph-34/current/3.0_head/DIR_0/1000000697c.0000122c__head_19785300__3 b. 手动执行PG 3.0进行数据清洗 $ ceph pg scrub 3.0 instructing pg 3.0 on osd.34 to scrub c. 检查集群监控状态 $ ceph health detail HEALTH_ERR 1 scrub errors; Possible data damage: 1 pg inconsistent OSD_SCRUB_ERRORS 1 scrub errors PG_DAMAGED Possible data damage: 1 pg inconsistent pg 3.0 is active+clean+inconsistent, acting [34,23,1] d. 修复PG 3.0 故障总结: 当PG内部三个副本有数据不一致的情况,想要修复不一致的数据文件,只需要执行ceph pg repair修复指令,ceph就会从其他的副本中将丢失的文件拷贝过来就行修复数据。 3.7.3 故障模拟
3.8 Down 3.8.1 说明 Peering过程中,PG检测到某个不能被跳过的Interval中(例如该Interval期间,PG完成了Peering,并且成功切换至Active状态,从而有可能正常处理了来自客户端的读写请求),当前剩余在线的OSD不足以完成数据修复. 3.8.2 故障模拟 a. 查看PG 3.7f内副本数 $ ceph pg dump | grep ^3.7f dumped all 3.7f 43 0 0 0 0 494927872 1569 1569 active+clean 2018-07-05 02:52:51.512598 21315'80115 21356:111666 [5,21,29] 5 [5,21,29] 5 21315'80115 2018-07-05 02:52:51.512568 6206'80083 2018-06-29 22:51:05.831219 b. 停止PG 3.7f 副本osd.21 $ systemctl stop ceph-osd@21 c. 查看PG 3.7f状态 $ ceph pg dump | grep ^3.7f dumped all 3.7f 66 0 89 0 0 591396864 1615 1615 active+undersized+degraded 2018-07-05 15:29:15.741318 21361'80161 21365:128307 [5,29] 5 [5,29] 5 21315'80115 2018-07-05 02:52:51.512568 6206'80083 2018-06-29 22:51:05.831219 d. 客户端写入数据,一定要确保数据写入到PG 3.7f的副本中[5,29] e. 停止PG 3.7f中副本osd.29,并且查看PG 3.7f状态 f. 停止PG 3.7f中副本osd.5,并且查看PG 3.7f状态 g. 拉起PG 3.7f中副本osd.21(此时的osd.21数据比较陈旧), 查看PG状态(down) h. 客户端IO操作 此时客户端IO都会夯住 ll /mnt/ 故障总结: 首先有一个PG 3.7f有三个副本[5,21,29], 当停掉一个osd.21之后, 写入数据到osd.5, osd.29。 这个时候停掉osd.29, osd.5 ,最后拉起osd.21。 这个时候osd.21的数据比较旧,就会出现PG为down的情况,这个时候客户端IO会夯住,只能拉起挂掉的osd才能修复问题。 3.8.3 结论
1. 首先kill B 2. 新写入数据到 A、C 3. kill A和C 4. 拉起B
本文作者:李航,多年的底层开发经验,在高性能nginx开发和分布式缓存redis cluster有着丰富的经验,,目前从事Ceph工作两年左右。 先后在58同城、汽车之家、优酷土豆集团工作。 目前供职于滴滴基础平台运维部 负责分布式Ceph集群开发及运维等工作。 个人主要关注的技术领域:高性能Nginx开发、分布式缓存、分布式存储。 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |