kubernetes故障排查总结

##关键点排查Kubernetes部署故障的3个步骤：应确保Pods正常运行；确保于服务可以将流量调度到Pod；检查是否正确配置了入口#Pod故障排查在大多数情况下，问题出在Pod本身。应该确保Pod正在运行并准备就绪（READY为1）。检查方法：kubectl get pods如上述会话，最后一个Pod处于"Running"和"就绪"状态，前两个Pod都没有处于Running状，状态也未"就绪"

富贵007

3184人浏览 · 2020-11-22 13:54:52

富贵007 · 2020-11-22 13:54:52 发布

关键点

排查Kubernetes部署故障的3个步骤：
应确保Pods正常运行；
确保于服务可以将流量调度到Pod；
检查是否正确配置了入口

Pod故障排查

在大多数情况下，问题出在Pod本身。应该确保Pod正在运行并准备就绪（READY为1）。
检查方法：
kubectl get pods

关键点

可以用下面几个命令用来排查Pod故障：
kubectl logs ：用来查看Pod容器日志。
kubectl describe pod ：用于查看与Pod相关的事件列表。
kubectl get pod ：用于获取Pod的YAML定义。
kubectl exec -ti bash：对进入Pod容器进行交互式终端。

常见Pod错误列表

Pod可能会出现各种启动和运行时错误。

启动错误：

ImagePullBackoff，ImageInspectError，ErrImagePull，ErrImageNeverPull，RegistryUnavailable，InvalidImageName

运行时错误：

CrashLoopBackOff，RunContainerError，KillContainerError，VerifyNonRootError，RunInitContainerError，CreatePodSandboxError，ConfigPodSandboxError，KillPodSandboxError，SetupNetworkError，TeardownNetworkError

关键错误代码及其修复方法

ImagePullBackOff

当Kubernetes无法检索Pod容器之一的图像时，将出现此错误。
主要三个原因：
1）镜像名称无效。例如，输错名字，或者镜像不存在。
2）为镜像指定了一个不存在的标签。
3）尝试检索的镜像属于一个私有注册表，但是Kubernetes没有设置权限访问。
解决方法：
前两种情况可以通过修改镜像名和标签来解决。
第三个问题，需要在注册表中添加凭据，并在Pod中引用。
官方文档中有一个有关如何实现此目标的示例。

CrashLoopBackOff

如果容器无法启动，则Kubernetes status会显示CrashLoopBackOff错误。
通常，Pod在以下情况下容器无法启动：
应用程序中出现错误，阻止其启动；
未正确配置容器；
Liveness探针失败太多次；
解决方法：
应该查看容器中日志，了解详细失败的原因。
kubectl logs --previous

RunContainerError

当容器无法启动时出现错误，直至在容器内的应用程序启动之前。
该问题通常是由于配置错误，例如：

挂载不存在的卷，例如ConfigMap或Secrets

将只读卷安装为可读写
解决方法：
对该错误应该使用kubectl describe pod 来收集和分析错误。

Pod处于待处理状态

当创建Pod时，该Pod保持在待处理状态。主要可能原因：
群集没有足够的资源（例如CPU和内存）来运行Pod；
当前的命名空间具有ResourceQuota对象，创建Pod将使命名空间超过配额；
Pod绑定到一个待处理的PersistentVolumeClaim；
解决方法：
检查kubectl describe命令的事件部分：
kubectl describe pod
对于因ResourceQuotas而导致的错误，可以使用以下方法检查群集的日志：
kubectl get events --sort-by=.metadata.creationTimestamp

Pod处于未就绪状态

如果Pod正在运行但未就绪，则表示"就绪"探针失败。
当就绪探针失败时，Pod未连接到服务，并且不会有流量转发到该实例。
解决方法
准备就绪探针失败是特定于应用程序的错误，因此应该检查kubectl描述中的"事件"部分以识别错误。

服务故障排查

如果的Pod正在运行且已就绪，但仍无法收到应用程序的响应，则应检查服务的配置是否正确。

关键点

服务的主要功能是根据流量的标签将流量路由到Pod。所以，先应该检查服务定位了多少个Pod，可以通过检查服务中的端点来查看：
kubectl describe service | grep Endpoints
端点是一对<ip address：port>，并且在服务（至少）以Pod为目标时，应该至少有一个。
如果"端点"部分为空，则有两种原因：

没有运行带有正确标签的Pod，应检查是否在正确的命名空间。

服务的选择器标签中有错字；

如果可以看到端点列表，但仍然无法访问应用程序，则很大原因是服务中的targetPort配置有误。

可以通过使用kubectl port-forward连接到服务具体排查：

kubectl port-forward service/ 3000:80

入口故障排查

如果Pod运行正常，服务可以分配流量到Pod，则可能原因是入口配置有误：

根据入口可能使用不同控制器类型，需要按具体对应方法进行调试。

关键点

检查入口配置参数serviceName和servicePort配置是否正确。可以使用下面命令检查：

kubectl describe ingress

如果"后端"列为空，则配置中肯定有一个错误。

如果可以在"后端"列中看到端口，但是仍然无法访问该应用程序，则可能是以下问题：

没有如何将入口发布到公网；没有如何将群集发布到公网；

可以通过直接连接到Ingress Pod来将基础结构问题与入口隔离开。

首先，查看入口控制器Pod列表：
kubectl get pods --all-namespaces
其次，使用kubectl describe命令查看端口：
kubectl describe pod nginx-ingress-controller-6fc5bcc
最后，连接到Pod：
kubectl port-forward nginx-ingress-controller-6fc5bcc 3000:80 --namespace kube-system
这样，访问计算机上的端口3000时，请求都会转发到Pod上的端口80。现在应用可以用吗？
如果可行，则问题出在基础架构中。应该检查如何将流量调度到群集。
如果还不行，则问题出在入口控制器中。应该调试入口控制器。常见的入口控制包括Nginx，HAProxy，Traefik等，可以查看具体控制器相关文档进行问题排查。此处我们以Nginx为例：
排查Nginx控制器
Ingress-nginx项目是Kubectl官方插件。可以使用kubectl ingress-nginx执行以下操作：
查看日志，后端，证书等；
连接到入口；
检查当前配置。
对应的命令有：
kubectl ingress-nginx lint：用于检查nginx.conf
kubectl ingress-nginx backend：用于检查后端（类似于kubectl describe ingress ）
kubectl ingress-nginx logs：查看控制器日志。

总结

对Kubernetes集群的故障排查应该遵循从下至上排查方法：先从Pod开始，然后是服务和入口，依次按顺序排查。

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这