kubernetes 常见问题集锦

本文永久链接: https://www.xtplayer.cn/kubernetes/kubernetes-problem-sets/

为什么在节点出现故障时重新调度 Pod 需要 5 分钟以上？

这是由于以下默认 Kubernetes 设置的组合：

kubelet
- node-status-update-frequency：指定 kubelet 将节点状态发布到 master 的频率（默认为 10 秒）
kube-controller-manager
- node-monitor-period：在 NodeController 中同步 NodeStatus 的时间段（默认 5 秒）
- node-monitor-grace-period：在标记运行节点不健康之前允许运行节点无响应的时间（默认为 40 秒）
- pod-eviction-timeout：删除失败节点上的 Pod 的宽限期（默认为 5m0）

有关这些设置的更多信息，请访问文档：节点不可用时快速迁移 Pods

network: stat /var/lib/calico/nodename: no such file or directory

calico 服务启动的时候，会在 /var/lib/calico/ 目录下生成 nodename 文件，主机上也是对应这个路径。在 calico pod 中有多个容器，有容器负责生成 nodename 这个文件。如果出现这个问题，有可能是容器未能正常运行，可以删除 Pod 让其重新运行，或者按以下文档对节点进行初始化之后，再重新添加到集群：https://www.xtplayer.cn/rancher/node-init/

[controlPlane] Failed to bring up Control Plane：Failed to verify healthcheck

这是通用的错误提示，出现这个错误一般是 kube-apiserver 或 kube-controller-manager 服务没有正常运行，导致无法通过 rke 的健康检查。

在 rke1 中，kube-apiserver 或 kube-controller-manager 是以 docker run 容器的方式运行，可以通过 docker logs kube-apiserver --tail 100 -f 或者 docker logs kube-controller-manager --tail 100 -f 来查看容器日志，从而进一步判断问题原因。

failed to bring up worker plane

这是通用的错误提示，出现这个错误一般是 kubelet 服务没有正常运行，导致无法通过 rke 的健康检查。

在 rke1 中，kubelet 是以 docker run 容器的方式运行，可以通过 docker logs kubelet --tail 100 -f 来查看容器日志，从而进一步判断问题原因。

Runtime network not ready: NetworkReady=false

Runtime network not ready: NetworkReady=false reason:NetworkPluginNotReady message:docker: network plugin is not ready: cni config uninitialized

rancher kubernetes 网络驱动均以容器方式运行，如果部署环境网络缓慢，则会导致需要很长时间下载镜像，从而影响驱动的部署。因为系统超时，所以会提示以上错误信息。一般等待 5 到 10 分钟即可自动恢复正常。

如果等了很长还未能恢复正常，那么这应该是驱动运行异常导致。可以通过以下命令删除网络驱动 Pod 使其重新创建：

kubectl -n kube-system get pod | awk '{print $1}' | grep -E 'canal|calico|flannel' | xargs kubectl -n kube-system delete pod