<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[三黍运维命令]]></title><description><![CDATA[<p dir="auto">ceph config get osd osd_mclock_profile<br />
ceph config set osd osd_mclock_profile balanced<br />
ceph config set osd osd_mclock_profile high_recovery_ops<br />
ceph config set osd osd_mclock_profile high_client_ops</p>
]]></description><link>http://an.forum.genostack.com/topic/1131/三黍运维命令</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 12:36:38 GMT</lastBuildDate><atom:link href="http://an.forum.genostack.com/topic/1131.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 15 May 2026 09:52:00 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 三黍运维命令 on Wed, 27 May 2026 03:23:16 GMT]]></title><description><![CDATA[<p dir="auto">mount -t ceph 10.233.29.234:6789,10.233.18.227:6789,10.233.40.1:6789:/genostack_v3/genostack_scriptCode /cephfs_data/genostack_v3/genostack_scriptCode -o name=admin,secret=AQA4NLVjXO2ICBAA8p93aHTAM5M+0yPL3lPGaQ==<br />
mount -t ceph 10.233.29.234:6789,10.233.18.227:6789,10.233.40.1:6789:/genostack_v3/genostack_cromwell/cromwell-executions /cephfs_data/genostack_v3/genostack_cromwell/cromwell-executions -o name=admin,secret=AQA4NLVjXO2ICBAA8p93aHTAM5M+0yPL3lPGaQ==<br />
mount -t ceph 10.233.29.234:6789,10.233.18.227:6789,10.233.40.1:6789:/genostack_v3/genostack_php/public_file_data /cephfs_data/genostack_v3/genostack_php/public_file_data -o name=admin,secret=AQA4NLVjXO2ICBAA8p93aHTAM5M+0yPL3lPGaQ==<br />
mount -t ceph 10.233.29.234:6789,10.233.18.227:6789,10.233.40.1:6789:/genostack_v3/genostack_php/project_data /cephfs_data/genostack_v3/genostack_php/project_data -o name=admin,secret=AQA4NLVjXO2ICBAA8p93aHTAM5M+0yPL3lPGaQ==</p>
<p dir="auto">umount /cephfs_data/genostack_v3/genostack_scriptCode<br />
umount /cephfs_data/genostack_v3/genostack_cromwell/cromwell-executions<br />
umount /cephfs_data/genostack_v3/genostack_php/public_file_data/<br />
umount /cephfs_data/genostack_v3/genostack_php/project_data</p>
]]></description><link>http://an.forum.genostack.com/post/3016</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3016</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Wed, 27 May 2026 03:23:16 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Mon, 25 May 2026 10:34:37 GMT]]></title><description><![CDATA[<p dir="auto">mkdir -p /cephfs_data/genostack_v3/genostack_scriptCode<br />
mkdir -p /cephfs_data/genostack_v3/genostack_cromwell/cromwell-executions<br />
mkdir -p /cephfs_data/genostack_v3/genostack_php/public_file_data/<br />
mkdir -p /cephfs_data/genostack_v3/genostack_php/project_data</p>
]]></description><link>http://an.forum.genostack.com/post/3015</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3015</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Mon, 25 May 2026 10:34:37 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Mon, 25 May 2026 10:33:45 GMT]]></title><description><![CDATA[<p dir="auto">mount -t ceph 10.233.29.234:6789,10.233.18.227:6789,10.233.40.1:6789:/cephfs_data/genostack_v3/genostack_scriptCode /cephfs_data/genostack_v3/genostack_scriptCode -o name=admin,secret=AQA4NLVjXO2ICBAA8p93aHTAM5M+0yPL3lPGaQ==</p>
<p dir="auto">mount -t ceph 10.233.29.234:6789,10.233.18.227:6789,10.233.40.1:6789:/cephfs_data/genostack_v3/genostack_cromwell/cromwell-executions /cephfs_data/genostack_v3/genostack_cromwell/cromwell-executions -o name=admin,secret=AQA4NLVjXO2ICBAA8p93aHTAM5M+0yPL3lPGaQ==<br />
mount -t ceph 10.233.29.234:6789,10.233.18.227:6789,10.233.40.1:6789:/cephfs_data/genostack_v3/genostack_php/public_file_data /cephfs_data/genostack_v3/genostack_php/public_file_data -o name=admin,secret=AQA4NLVjXO2ICBAA8p93aHTAM5M+0yPL3lPGaQ==<br />
mount -t ceph 10.233.29.234:6789,10.233.18.227:6789,10.233.40.1:6789:/cephfs_data/genostack_v3/genostack_php/project_data /cephfs_data/genostack_v3/genostack_php/project_data -o name=admin,secret=AQA4NLVjXO2ICBAA8p93aHTAM5M+0yPL3lPGaQ==</p>
]]></description><link>http://an.forum.genostack.com/post/3014</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3014</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Mon, 25 May 2026 10:33:45 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Mon, 25 May 2026 10:31:57 GMT]]></title><description><![CDATA[<p dir="auto">mount -t ceph 10.233.29.234:6789,10.233.18.227:6789,10.233.40.1:6789:/ /cephfs_data -o name=admin,secret=AQA4NLVjXO2ICBAA8p93aHTAM5M+0yPL3lPGaQ==</p>
]]></description><link>http://an.forum.genostack.com/post/3013</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3013</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Mon, 25 May 2026 10:31:57 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Mon, 25 May 2026 10:17:26 GMT]]></title><description><![CDATA[<p dir="auto">ip link set dev eno51 mtu 1500<br />
ip link set dev eno52 mtu 1500</p>
]]></description><link>http://an.forum.genostack.com/post/3012</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3012</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Mon, 25 May 2026 10:17:26 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Mon, 25 May 2026 10:12:23 GMT]]></title><description><![CDATA[<ol>
<li>报错核心信息<br />
报错日志： Hit error connecting to datastore - retry error=Get "<a href="https://10.233.0.1:443/api/v1/namespaces/foo" rel="nofollow ugc">https://10.233.0.1:443/api/v1/namespaces/foo</a>": net/http: TLS handshake timeout</li>
</ol>
<p dir="auto">含义： Calico 正在尝试连接集群的 API Server 内网服务 IP（10.233.0.1:443），但在进行 TLS 握手（Handshake） 时超时了。</p>
<p dir="auto">Ping 测试结果： 您通过 ping 10.233.0.1 发现网络是通的，且延迟极低（~0.05ms）。这说明 三层网络（IP 路由）是通的，但四层（TCP）或七层（TLS/HTTP）存在阻断或异常。</p>
<ol start="2">
<li>可能的原因及排查步骤<br />
请按照以下顺序逐步排查：</li>
</ol>
<p dir="auto">排查一：测试 TCP 443 端口是否真正可用<br />
ping 使用的是 ICMP 协议，即便 ping 得通，TCP 端口也可能被防火墙拦截或没有服务监听。<br />
在报错的节点上执行以下命令，检查 443 端口是否响应：</p>
<p dir="auto">Bash<br />
curl -k -v <a href="https://10.233.0.1:443" rel="nofollow ugc">https://10.233.0.1:443</a></p>
<h1>或者使用 nc/telnet</h1>
<p dir="auto">nc -zv 10.233.0.1 443<br />
如果连接超时（Timeout）或被拒绝（Refused）： 说明 443 端口在网络层或安全策略上被封锁了。请检查系统防火墙（如 firewalld、ufw 或 iptables 规则）。</p>
<p dir="auto">排查二：检查 Kubernetes API Server 的状态<br />
10.233.0.1 通常是 kube-apiserver 的 Service VIP。如果 API Server 挂了、过载或者响应极慢，就会导致 TLS 握手超时。<br />
在 Master 节点上查看 API Server 的运行状态和日志：</p>
<p dir="auto">Bash<br />
kubectl get pods -n kube-system | grep apiserver</p>
<h1>查看 apiserver 日志是否有报错或过载</h1>
<p dir="auto">kubectl logs -n kube-system deploy/kube-apiserver # 如果是 deployment</p>
<h1>或者如果是静态 Pod：</h1>
<p dir="auto">kubectl logs -n kube-system kube-apiserver-node1<br />
排查三：MTU（最大传输单元）不一致问题（常见于 Calico 环境）<br />
TLS 握手期间会传输很大的证书文件。如果节点网卡的 MTU 差异过大，导致大包被丢弃，就会出现“能 ping 通（小包），但 TLS 握手超时（大包）”的现象。</p>
<p dir="auto">在宿主机上查看网卡 MTU（如 eth0 或 bond0）：</p>
<p dir="auto">Bash<br />
ip link show<br />
检查 Kubespray 配置文件中 Calico 的 MTU 设置（通常在 roles/network_plugin/calico/defaults/main.yml 中），确保 Calico 的 MTU 比物理网卡小至少 20 字节（如果是 IPIP 模式）或 50 字节（如果是 VXLAN 模式）。</p>
<p dir="auto">排查四：检查系统时间同步<br />
TLS 证书验证对时间非常敏感。如果当前节点（node4）与 Master 节点的时间不一致，可能会导致证书校验环节卡住或失败。</p>
<p dir="auto">Bash<br />
date</p>
<h1>确保所有节点都启用了时钟同步（如 chronyd 或 ntpd）</h1>
<p dir="auto">systemctl status chronyd</p>
]]></description><link>http://an.forum.genostack.com/post/3011</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3011</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Mon, 25 May 2026 10:12:23 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 10:23:35 GMT]]></title><description><![CDATA[<p dir="auto">kubectl logs -f calico-node-f42jj -n kube-system<br />
2026-05-24 10:12:48.021 [INFO][9] startup/startup.go 376: Early log level set to info<br />
2026-05-24 10:12:48.022 [INFO][9] startup/startup.go 392: Using NODENAME environment for node name<br />
2026-05-24 10:12:48.022 [INFO][9] startup/startup.go 404: Determined node name: node4<br />
2026-05-24 10:12:48.025 [INFO][9] startup/startup.go 436: Checking datastore connection<br />
2026-05-24 10:12:58.027 [INFO][9] startup/startup.go 451: Hit error connecting to datastore - retry error=Get "<a href="https://10.233.0.1:443/api/v1/nodes/foo" rel="nofollow ugc">https://10.233.0.1:443/api/v1/nodes/foo</a>": net/http: TLS handshake timeout</p>
]]></description><link>http://an.forum.genostack.com/post/3010</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3010</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 10:23:35 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 10:22:05 GMT]]></title><description><![CDATA[<p dir="auto">TLS handshake, Client hello (1)</p>
]]></description><link>http://an.forum.genostack.com/post/3009</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3009</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 10:22:05 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 10:17:58 GMT]]></title><description><![CDATA[<p dir="auto">tcpdump -r /root/node4_tls.pcap -nn -v | head -n 20</p>
]]></description><link>http://an.forum.genostack.com/post/3008</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3008</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 10:17:58 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 10:09:31 GMT]]></title><description><![CDATA[<p dir="auto"><img src="http://an.forum.genostack.com/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=5opkpnl53ss" class="not-responsive emoji emoji-android emoji--rocket" title=":rocket:" alt="🚀" /> 终极修复方案<br />
这个问题属于 Linux 内核网络路由冲突。请立刻按照以下两步在 Master 节点 (node1) 上执行，可以瞬间打破这个死锁：</p>
<p dir="auto">步骤一：关闭 Master 节点网卡的反向路径过滤（RP_Filter）<br />
Linux 内核为了防欺骗，默认会开启反向路径校验。如果它发现回包的路径和来包路径不一致，就会直接把包丢弃。</p>
<p dir="auto">在 Master 节点 (node1) 上执行：</p>
<p dir="auto">Bash</p>
<h1>临时关闭所有网卡的反向路径过滤</h1>
<p dir="auto">sysctl -w net.ipv4.conf.all.rp_filter=0<br />
sysctl -w net.ipv4.conf.default.rp_filter=0</p>
<h1>刷新配置</h1>
<p dir="auto">sysctl -p<br />
步骤二：强行清空这个卡死的 SYN_RECV 流表<br />
现在连接跟踪表里缓存了错误的连接状态，必须把它立刻踢掉：</p>
<p dir="auto">在 Master 节点 (node1) 上强行断开并清理针对 node4 的死连接：</p>
<p dir="auto">Bash<br />
conntrack -D -s 192.168.10.13</p>
<h1>或者直接清理目的地是 10.233.0.1 且状态坏掉的流表</h1>
<p dir="auto">conntrack -D -d 10.233.0.1<br />
🧪 见证奇迹的时刻<br />
完成 Master 节点上的这两步操作后，立刻回到 node4 重新敲一下：</p>
<p dir="auto">Bash<br />
curl -v -k <a href="https://10.233.0.1:443" rel="nofollow ugc">https://10.233.0.1:443</a><br />
这一次，握手流表被刷新，反向过滤关闭，TCP 状态应该能瞬间跨过 SYN_RECV 直接进入 ESTABLISHED。测一下看看，是不是直接通了？！</p>
]]></description><link>http://an.forum.genostack.com/post/3007</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3007</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 10:09:31 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 10:04:14 GMT]]></title><description><![CDATA[<p dir="auto">第一步：去 Master 节点（node1）上大扫除<br />
请登录到你的 Master 节点 (node1)，执行以下命令，看看 Master 是不是在悄悄嫌弃 node4：</p>
<p dir="auto">Bash</p>
<h1>1. 检查 Master 的 iptables 中有没有针对 node4 IP 的拦截规则</h1>
<p dir="auto">iptables -L -n -v | grep 192.168.10.13</p>
<h1>2. 如果你们系统开启了 IPVS，查看 conntrack 是否有 node4 的死连接冲突</h1>
<p dir="auto">conntrack -L | grep 192.168.10.13</p>
<h1>3. 实时跟踪 Master 上的 API Server 日志，同时在 node4 运行 curl</h1>
<h1>看看 Master 端有没有弹出来自 192.168.10.13 的 TLS 握手错误或拒绝日志</h1>
<p dir="auto">kubectl logs -n kube-system -l component=kube-apiserver --tail=50 -f | grep 192.168.10.13<br />
第二步：最粗暴也最有效的验证（改 IP）<br />
如果你有权限，尝试修改一下 node4 的物理内网 IP（比如从 192.168.10.13 改成 .14 或其他空闲 IP），或者把 node4 网线拔了插到旁边 node6 的交换机端口上。</p>
<p dir="auto">如果改了 IP 或者换了端口瞬间通了，那就彻底抓到真凶了：就是 Master 内部或交换机针对旧 IP/旧端口做了安全拦截！</p>
<p dir="auto">第三步：看一眼抓包大结局<br />
把你之前在 node4 跑的 tcpdump 停止，用文本读出来看一眼：</p>
<p dir="auto">Bash<br />
tcpdump -r /root/node4_tls.pcap -nn -vv | head -n 50<br />
你只需要帮我确认：里面到底有没有来自 10.233.0.1 带有 [R] (Reset) 的包？</p>
<p dir="auto">如果没有（全是一成不变的单向发送）：实锤被半路 Drop（默默丢弃）。</p>
<p dir="auto">如果有（带有 [R]）：实锤被 Master Reject（显式拒绝）。</p>
<p dir="auto">咱们去 Master 节点上看一眼它的 iptables 规则或者 API Server 日志吧，真凶现在就在 Master 身上躲着呢！</p>
]]></description><link>http://an.forum.genostack.com/post/3006</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3006</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 10:04:14 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 10:01:01 GMT]]></title><description><![CDATA[<p dir="auto">tcpdump -r /root/node4_tls.pcap -nn -v | head -n 30</p>
]]></description><link>http://an.forum.genostack.com/post/3005</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3005</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 10:01:01 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 09:52:05 GMT]]></title><description><![CDATA[<h1>物理机推荐直接同步时间服务器</h1>
<p dir="auto">ntpdate <a href="http://ntp.aliyun.com" rel="nofollow ugc">ntp.aliyun.com</a> || chronyc -a makestep</p>
]]></description><link>http://an.forum.genostack.com/post/3004</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3004</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 09:52:05 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 09:41:41 GMT]]></title><description><![CDATA[<p dir="auto">tcpdump -r /root/node4_tls.pcap -nn -v<br />
systemctl restart chronyd || ntpdate <a href="http://ntp.aliyun.com" rel="nofollow ugc">ntp.aliyun.com</a></p>
]]></description><link>http://an.forum.genostack.com/post/3003</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3003</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 09:41:41 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 09:37:11 GMT]]></title><description><![CDATA[<p dir="auto">方案一：测试极端的低 MTU 绕过（最快见效的野路子）<br />
之前我们测了物理网卡可以过 1450 的 ping，但 TLS 的应用层分片机制可能卡在宿主机的 TCP 握手协商上。我们直接把 node4 的物理网卡 MTU 砍到一个极低的值，迫使操作系统的 TCP 协议栈将所有包切成超级小的碎包发出，以此绕过中间设备的拦截。</p>
<p dir="auto">在 node4 上执行：</p>
<p dir="auto">Bash</p>
<h1>强行将物理网卡 eno52 的 MTU 降到 1200</h1>
<p dir="auto">ip link set dev eno52 mtu 1200<br />
测试：再次在 node4 执行 curl -v -k <a href="https://10.233.0.1:443" rel="nofollow ugc">https://10.233.0.1:443</a>。</p>
<p dir="auto">原理：如果改成 1200 后突然通了，说明 node4 的物理上游链路依然存在严重的 PMTUD（路径MTU发现）黑洞。</p>
<p dir="auto">方案二：检查并重置 node4 本身恶化的 iptables/IPVS 状态表<br />
从最后一张图（image_576424.jpg）看，Calico 在拼命尝试连接多个内网 Master 的 IP（192.168.10.12:2379 等）。node4 本身的内核连接跟踪表（Conntrack）可能已经因为先前的 200 多次崩溃而溢出或卡死。</p>
<p dir="auto">在 node4 上强行刷新网络规则：</p>
<p dir="auto">Bash</p>
<h1>清理可能导致 TCP 卡死的内核连接跟踪表</h1>
<p dir="auto">yum install -y conntrack-tools || apt-get install -y conntrack<br />
conntrack -F</p>
<h1>清理并重启 node4 本身的网络服务（如果是物理机可以考虑重启一下 node4 宿主机，这是最彻底的）</h1>
<p dir="auto">方案三：抓包看看到底是谁在“只收不回”<br />
如果方案一和二都不行，我们需要用最原始的手段，看看到底是包没发出去，还是 Master 回了包 node4 没收到。</p>
<p dir="auto">在 node4 上开一个窗口抓包：</p>
<p dir="auto">Bash<br />
tcpdump -i eno52 port 443 -w node4.pcap<br />
在 node4 上开另一个窗口执行 curl 触发卡死。</p>
<p dir="auto">把 node4.pcap 导出到电脑用 Wireshark 打开。</p>
<p dir="auto">现象 A：如果看到大量的 TCP Retransmission（重传）来自 node4，说明 node4 发出了 Client Hello，但上游设备（交换机/防火墙）把它吃了，Master 压根没收到。</p>
<p dir="auto">现象 B：如果看到了 Master 回应了包，但 node4 报错，说明是 node4 本身的内核防火墙（iptables）把回包给拦截了。</p>
]]></description><link>http://an.forum.genostack.com/post/3002</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3002</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 09:37:11 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 09:29:56 GMT]]></title><description><![CDATA[<p dir="auto">别慌，既然 ping 1450 大包能通，说明纯粹的底层网络（三层 IP 转发和大包物理传输）是完全健康的。</p>
<p dir="auto">那为什么 curl 和 Calico 会死死卡在 TLS 握手的 Client Hello？这就好比电话拨通了，但只要一开始对暗号（加密握手），对方就突然挂机或不说话了。</p>
<p dir="auto">为了帮你理清思绪，我们把复杂的网络剥离出来，用最直接的三个排查阶段来彻底定位：</p>
<p dir="auto"><img src="http://an.forum.genostack.com/assets/plugins/nodebb-plugin-emoji/emoji/android/1f6e0.png?v=5opkpnl53ss" class="not-responsive emoji emoji-android emoji--hammer_and_wrench" title=":hammer_and_wrench:" alt="🛠" />️ 第一阶段：1分钟排除网卡硬件特性干扰 (最可能)<br />
在 IPVS/iptables 转发模式下，现代网卡会开启一些“硬件加速”功能。这些功能有时候会将 TLS 的长数据包切碎或改写校验和，导致 Master 收到后认为是坏包而直接丢弃，从而不回包。</p>
<p dir="auto">请直接在 node4 上执行以下命令，强制关闭网卡的加速特性：</p>
<p dir="auto">Bash</p>
<h1>1. 安装 ethtool</h1>
<p dir="auto">yum install -y ethtool || apt-get install -y ethtool</p>
<h1>2. 关闭主网卡的校验卸载和分片卸载（请把 eth0 换成你的实际物理网卡名）</h1>
<p dir="auto">ethtool -K eth0 tx off gso off tso off<br />
测试：改完后，立刻再次在 node4 执行 curl -v -k <a href="https://10.233.0.1:443" rel="nofollow ugc">https://10.233.0.1:443</a>。</p>
<p dir="auto">结果：如果通了，说明就是网卡特性作祟，问题解决！</p>
<p dir="auto"><img src="http://an.forum.genostack.com/assets/plugins/nodebb-plugin-emoji/emoji/android/1f50d.png?v=5opkpnl53ss" class="not-responsive emoji emoji-android emoji--mag" title=":mag:" alt="🔍" /> 第二阶段：确认是“单节点问题”还是“全局问题”<br />
我们要确定这个 TLS 握手失败，是只发生在 node4 上，还是其他 Node 也有。</p>
<p dir="auto">去其他正常运行的工作节点（比如 node2 或 node3） 执行相同的命令：</p>
<p dir="auto">Bash<br />
curl -v -k <a href="https://10.233.0.1:443" rel="nofollow ugc">https://10.233.0.1:443</a><br />
交叉对比：</p>
<p dir="auto">如果只有 node4 卡死：说明问题百分之百在 node4 本身（网卡驱动、本地 kube-proxy、或者 node4 的本地 iptables/ipvs 状态表损坏）。</p>
<p dir="auto">如果所有节点都卡死：说明是 Master 端的 API Server 顶不住了，或者 Master 本身的系统防火墙对 10.233.0.1 的 443 端口做了整体的策略限制（如限流、拒绝特定握手协议）。</p>
<p dir="auto"><img src="http://an.forum.genostack.com/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4e1.png?v=5opkpnl53ss" class="not-responsive emoji emoji-android emoji--satellite_antenna" title=":satellite_antenna:" alt="📡" /> 第三阶段：从“接收端（Master）”看真相<br />
既然 node4 已经把 Client Hello 发出去了，我们去 Master 节点看看它到底收到了没有，或者为什么要拒绝。</p>
<p dir="auto">登录到 Master 节点 (node1)。</p>
<p dir="auto">实时查看 kube-apiserver 的日志，并过滤 node4 的物理内网 IP（假设 node4 的内网 IP 是 192.168.10.13）：</p>
<p dir="auto">Bash<br />
kubectl logs -n kube-system -l component=kube-apiserver --tail=100 -f | grep 192.168.10.13<br />
在 node4 上同时运行 curl 触发报错，观察 Master 端的日志输出：</p>
<p dir="auto">情况 A：Master 毫无日志反差。说明 node4 的 Client Hello 包在半路（云平台安全组、外部交换机、或 Master 的本地防火墙）被静默丢弃（Drop）了。</p>
<p dir="auto">情况 B：Master 报错，类似 bad certificate 或 tls: alert。说明包到了，但 Master 嫌弃 node4 的客户端行为（可能是时间不同步、加密套件不匹配等），主动断开了连接。</p>
]]></description><link>http://an.forum.genostack.com/post/3001</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3001</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 09:29:56 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 04:17:05 GMT]]></title><description><![CDATA[<p dir="auto">kubectl get pods -n kube-system -o wide | grep kube-proxy | grep node4<br />
iptables -L -n -v | grep 10.233.0.1</p>
<h1>或者如果是 IPVS 模式</h1>
<p dir="auto">ipvsadm -ln | grep 10.233.0.1</p>
]]></description><link>http://an.forum.genostack.com/post/3000</link><guid isPermaLink="true">http://an.forum.genostack.com/post/3000</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 04:17:05 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Sun, 24 May 2026 04:15:59 GMT]]></title><description><![CDATA[<p dir="auto">curl -v -k --connect-timeout 10 <a href="https://10.233.0.1:443" rel="nofollow ugc">https://10.233.0.1:443</a></p>
]]></description><link>http://an.forum.genostack.com/post/2999</link><guid isPermaLink="true">http://an.forum.genostack.com/post/2999</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Sun, 24 May 2026 04:15:59 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Thu, 21 May 2026 15:47:08 GMT]]></title><description><![CDATA[<h1>测试 3300 端口（最关键！）</h1>
<p dir="auto">nc -w 3 -zv 192.168.10.11 3300<br />
nc -w 3 -zv 192.168.10.14 3300<br />
nc -w 3 -zv 192.168.10.15 3300</p>
<h1>测试 6789 端口</h1>
<p dir="auto">nc -w 3 -zv 192.168.10.11 6789</p>
<p dir="auto">mount -t ceph 192.168.10.11:/,192.168.10.14:/,192.168.10.15:/ /cephfs_data -o name=admin,secret=AQA4NLvjX02ICBAA8p93aHTAM5M+0yPL3lPGaQ==</p>
<p dir="auto">mount -t ceph 192.168.10.11:3300,192.168.10.14:3300,192.168.10.15:3300:/ /cephfs_data -o name=admin,secret=AQA4NLvjX02ICBAA8p93aHTAM5M+0yPL3lPGaQ==</p>
]]></description><link>http://an.forum.genostack.com/post/2998</link><guid isPermaLink="true">http://an.forum.genostack.com/post/2998</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Thu, 21 May 2026 15:47:08 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Thu, 21 May 2026 15:22:30 GMT]]></title><description><![CDATA[<p dir="auto">kubectl -n rook-ceph edit deployment rook-ceph-mon-bu</p>
<p dir="auto">hostNetwork: true<br />
dnsPolicy: ClusterFirstWithHostNet</p>
]]></description><link>http://an.forum.genostack.com/post/2997</link><guid isPermaLink="true">http://an.forum.genostack.com/post/2997</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Thu, 21 May 2026 15:22:30 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Thu, 21 May 2026 14:47:41 GMT]]></title><description><![CDATA[<p dir="auto">2026-05-21 13:28:38.632651 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node1" with maxUnavailable=0 for "host" failure domain "node1"<br />
2026-05-21 13:28:38.635906 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node2" with maxUnavailable=0 for "host" failure domain "node2"<br />
2026-05-21 13:28:38.638890 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node5" with maxUnavailable=0 for "host" failure domain "node5"<br />
2026-05-21 13:28:38.641451 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node6" with maxUnavailable=0 for "host" failure domain "node6"<br />
2026-05-21 13:28:38.644184 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node7" with maxUnavailable=0 for "host" failure domain "node7"<br />
2026-05-21 13:28:38.646663 I | clusterdisruption-controller: deleting temporary blocking pdb with "rook-ceph-osd-host-node8" with maxUnavailable=0 for "host" failure domain "node8"</p>
]]></description><link>http://an.forum.genostack.com/post/2996</link><guid isPermaLink="true">http://an.forum.genostack.com/post/2996</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Thu, 21 May 2026 14:47:41 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Thu, 21 May 2026 12:19:52 GMT]]></title><description><![CDATA[<p dir="auto">kubectl -n rook-ceph delete job rook-ceph-osd-prepare-node1</p>
]]></description><link>http://an.forum.genostack.com/post/2995</link><guid isPermaLink="true">http://an.forum.genostack.com/post/2995</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Thu, 21 May 2026 12:19:52 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Thu, 21 May 2026 12:18:01 GMT]]></title><description><![CDATA[<p dir="auto">kubectl -n rook-ceph get pod -A | grep osd-prepare | grep node1</p>
<p dir="auto">kubectl -n rook-ceph get job | grep osd-prepare | grep node1<br />
kubectl -n rook-ceph delete job -l app=rook-ceph-osd-prepare<br />
watch "kubectl -n rook-ceph get pod -o wide | grep osd-prepare"</p>
]]></description><link>http://an.forum.genostack.com/post/2994</link><guid isPermaLink="true">http://an.forum.genostack.com/post/2994</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Thu, 21 May 2026 12:18:01 GMT</pubDate></item><item><title><![CDATA[Reply to 三黍运维命令 on Thu, 21 May 2026 12:11:59 GMT]]></title><description><![CDATA[<p dir="auto">hostNetwork: true<br />
dnsPolicy: ClusterFirstWithHostNet</p>
]]></description><link>http://an.forum.genostack.com/post/2993</link><guid isPermaLink="true">http://an.forum.genostack.com/post/2993</guid><dc:creator><![CDATA[zhanglu]]></dc:creator><pubDate>Thu, 21 May 2026 12:11:59 GMT</pubDate></item></channel></rss>