三黍运维命令

zhanglu

moren:
bash-4.4$ ceph config get osd osd_max_backfills
1
bash-4.4$
bash-4.4$ ceph config get osd osd_recovery_max_active
0
bash-4.4$ ceph config get osd osd_recovery_op_priority
3

zhanglu

提高每个 OSD 允许的最大并发恢复操作数（默认通常是 3 或 5）

ceph config set osd osd_max_backfills 16
ceph config set osd osd_recovery_max_active 16

提高恢复线程的优先级（值越小优先级越高，默认通常是 10）

ceph config set osd osd_recovery_op_priority 3

zhanglu

2026-05-18 01:13:11.562102 I | clusterdisruption-controller: all "host" failure domains: [node1 node2 node3 node5 node6 node7 node8]. osd is down in failure domain: "". active node drains: false. pg health: "cluster is not fully clean. PGs: [{StateName:active+clean Count:1972} {StateName:active+remapped+backfilling Count:104} {StateName:active+clean+scrubbing+deep Count:21}]"

zhanglu

csi-cephfsplugin-2hwcz csi-cephfsplugin-2zjmb csi-cephfsplugin-djtn9 csi-cephfsplugin-fpr72 csi-cephfsplugin-kltj4 csi-cephfsplugin-lz5gv csi-cephfsplugin-provisioner-7769f7b7fb-pk44w csi-cephfsplugin-provisioner-7769f7b7fb-zg99t csi-cephfsplugin-ptq9l csi-rbdplugin-8cb99 csi-rbdplugin-bl9vv csi-rbdplugin-dlxlg csi-rbdplugin-fc6r7 csi-rbdplugin-h4jl4 csi-rbdplugin-provisioner-6585465959-k9hr6 csi-rbdplugin-provisioner-6585465959-nwzxf csi-rbdplugin-v2sb8 csi-rbdplugin-w9skr

zhanglu

kubectl -n rook-ceph get cephcluster -o yaml | grep -A 5 -B 2 network

zhanglu

kubectl -n rook-ceph get pod -l app=rook-ceph-mon -o jsonpath='{.items[0].spec.hostNetwork}'

kubectl -n rook-ceph get pod -o wide -l app=rook-ceph-mon

kubectl -n rook-ceph logs -l app=rook-ceph-operator --tail=200 | grep -Ei "network|error|failed"

kubectl -n rook-ceph get events --sort-by='.metadata.creationTimestamp' | grep -i network

zhanglu

kubectl -n rook-ceph get cephcluster rook-ceph -o jsonpath='{.spec.network}'

kubectl -n rook-ceph describe cephcluster rook-ceph | grep -A 10 -i "Events:"

kubectl -n rook-ceph get cephcluster rook-ceph -o jsonpath='{.status.conditions}'

kubectl -n rook-ceph edit cephcluster rook-ceph

zhanglu

network:
provider: host
selectors:
public: "192.168.x.0/24" # 换成你 node1-node8 物理内网实际的 IP 段
cluster: "192.168.x.0/24" # 如果是单网卡，写一样的；双网卡写心跳专属网段

zhanglu

kubectl -n rook-ceph edit deployment rook-ceph-mon-bu

zhanglu

kubectl -n rook-ceph get deployment rook-ceph-mon-bu -o yaml | grep -E "hostNetwork|dnsPolicy"

zhanglu

hostNetwork: true
dnsPolicy: ClusterFirstWithHostNet

zhanglu

kubectl -n rook-ceph get pod -A | grep osd-prepare | grep node1

kubectl -n rook-ceph get job | grep osd-prepare | grep node1
kubectl -n rook-ceph delete job -l app=rook-ceph-osd-prepare
watch "kubectl -n rook-ceph get pod -o wide | grep osd-prepare"

zhanglu

kubectl -n rook-ceph delete job rook-ceph-osd-prepare-node1

zhanglu

2026-05-21 13:28:38.632651 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node1" with maxUnavailable=0 for "host" failure domain "node1"
2026-05-21 13:28:38.635906 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node2" with maxUnavailable=0 for "host" failure domain "node2"
2026-05-21 13:28:38.638890 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node5" with maxUnavailable=0 for "host" failure domain "node5"
2026-05-21 13:28:38.641451 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node6" with maxUnavailable=0 for "host" failure domain "node6"
2026-05-21 13:28:38.644184 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node7" with maxUnavailable=0 for "host" failure domain "node7"
2026-05-21 13:28:38.646663 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node8" with maxUnavailable=0 for "host" failure domain "node8"

zhanglu

kubectl -n rook-ceph edit deployment rook-ceph-mon-bu

hostNetwork: true
dnsPolicy: ClusterFirstWithHostNet

zhanglu

测试 3300 端口（最关键！）

nc -w 3 -zv 192.168.10.11 3300
nc -w 3 -zv 192.168.10.14 3300
nc -w 3 -zv 192.168.10.15 3300

测试 6789 端口

nc -w 3 -zv 192.168.10.11 6789

mount -t ceph 192.168.10.11:/,192.168.10.14:/,192.168.10.15:/ /cephfs_data -o name=admin,secret=AQA4NLvjX02ICBAA8p93aHTAM5M+0yPL3lPGaQ==

mount -t ceph 192.168.10.11:3300,192.168.10.14:3300,192.168.10.15:3300:/ /cephfs_data -o name=admin,secret=AQA4NLvjX02ICBAA8p93aHTAM5M+0yPL3lPGaQ==

zhanglu

curl -v -k --connect-timeout 10 https://10.233.0.1:443

zhanglu

kubectl get pods -n kube-system -o wide | grep kube-proxy | grep node4
iptables -L -n -v | grep 10.233.0.1

或者如果是 IPVS 模式

ipvsadm -ln | grep 10.233.0.1

zhanglu

别慌，既然 ping 1450 大包能通，说明纯粹的底层网络（三层 IP 转发和大包物理传输）是完全健康的。

那为什么 curl 和 Calico 会死死卡在 TLS 握手的 Client Hello？这就好比电话拨通了，但只要一开始对暗号（加密握手），对方就突然挂机或不说话了。

为了帮你理清思绪，我们把复杂的网络剥离出来，用最直接的三个排查阶段来彻底定位：

️ 第一阶段：1分钟排除网卡硬件特性干扰 (最可能)
在 IPVS/iptables 转发模式下，现代网卡会开启一些“硬件加速”功能。这些功能有时候会将 TLS 的长数据包切碎或改写校验和，导致 Master 收到后认为是坏包而直接丢弃，从而不回包。

请直接在 node4 上执行以下命令，强制关闭网卡的加速特性：

Bash

1. 安装 ethtool

yum install -y ethtool || apt-get install -y ethtool

2. 关闭主网卡的校验卸载和分片卸载（请把 eth0 换成你的实际物理网卡名）

ethtool -K eth0 tx off gso off tso off
测试：改完后，立刻再次在 node4 执行 curl -v -k https://10.233.0.1:443。

结果：如果通了，说明就是网卡特性作祟，问题解决！

第二阶段：确认是“单节点问题”还是“全局问题”
我们要确定这个 TLS 握手失败，是只发生在 node4 上，还是其他 Node 也有。

去其他正常运行的工作节点（比如 node2 或 node3）执行相同的命令：

Bash
curl -v -k https://10.233.0.1:443
交叉对比：

如果只有 node4 卡死：说明问题百分之百在 node4 本身（网卡驱动、本地 kube-proxy、或者 node4 的本地 iptables/ipvs 状态表损坏）。

如果所有节点都卡死：说明是 Master 端的 API Server 顶不住了，或者 Master 本身的系统防火墙对 10.233.0.1 的 443 端口做了整体的策略限制（如限流、拒绝特定握手协议）。

第三阶段：从“接收端（Master）”看真相
既然 node4 已经把 Client Hello 发出去了，我们去 Master 节点看看它到底收到了没有，或者为什么要拒绝。

登录到 Master 节点 (node1)。

实时查看 kube-apiserver 的日志，并过滤 node4 的物理内网 IP（假设 node4 的内网 IP 是 192.168.10.13）：

Bash
kubectl logs -n kube-system -l component=kube-apiserver --tail=100 -f | grep 192.168.10.13
在 node4 上同时运行 curl 触发报错，观察 Master 端的日志输出：

情况 A：Master 毫无日志反差。说明 node4 的 Client Hello 包在半路（云平台安全组、外部交换机、或 Master 的本地防火墙）被静默丢弃（Drop）了。

情况 B：Master 报错，类似 bad certificate 或 tls: alert。说明包到了，但 Master 嫌弃 node4 的客户端行为（可能是时间不同步、加密套件不匹配等），主动断开了连接。

zhanglu

方案一：测试极端的低 MTU 绕过（最快见效的野路子）
之前我们测了物理网卡可以过 1450 的 ping，但 TLS 的应用层分片机制可能卡在宿主机的 TCP 握手协商上。我们直接把 node4 的物理网卡 MTU 砍到一个极低的值，迫使操作系统的 TCP 协议栈将所有包切成超级小的碎包发出，以此绕过中间设备的拦截。

在 node4 上执行：

Bash

强行将物理网卡 eno52 的 MTU 降到 1200

ip link set dev eno52 mtu 1200
测试：再次在 node4 执行 curl -v -k https://10.233.0.1:443。

原理：如果改成 1200 后突然通了，说明 node4 的物理上游链路依然存在严重的 PMTUD（路径MTU发现）黑洞。

方案二：检查并重置 node4 本身恶化的 iptables/IPVS 状态表
从最后一张图（image_576424.jpg）看，Calico 在拼命尝试连接多个内网 Master 的 IP（192.168.10.12:2379 等）。node4 本身的内核连接跟踪表（Conntrack）可能已经因为先前的 200 多次崩溃而溢出或卡死。

在 node4 上强行刷新网络规则：

Bash

清理可能导致 TCP 卡死的内核连接跟踪表

yum install -y conntrack-tools || apt-get install -y conntrack
conntrack -F

清理并重启 node4 本身的网络服务（如果是物理机可以考虑重启一下 node4 宿主机，这是最彻底的）

方案三：抓包看看到底是谁在“只收不回”
如果方案一和二都不行，我们需要用最原始的手段，看看到底是包没发出去，还是 Master 回了包 node4 没收到。

在 node4 上开一个窗口抓包：

Bash
tcpdump -i eno52 port 443 -w node4.pcap
在 node4 上开另一个窗口执行 curl 触发卡死。

把 node4.pcap 导出到电脑用 Wireshark 打开。

现象 A：如果看到大量的 TCP Retransmission（重传）来自 node4，说明 node4 发出了 Client Hello，但上游设备（交换机/防火墙）把它吃了，Master 压根没收到。

现象 B：如果看到了 Master 回应了包，但 node4 报错，说明是 node4 本身的内核防火墙（iptables）把回包给拦截了。