Kubernetes部署Prometheus operator

部署Prometheus

叱咤少帅（少帅）

1688人浏览 · 2022-01-05 13:58:30

叱咤少帅（少帅） · 2022-01-05 13:58:30 发布

部署Prometheus

我们使用kube-prometheus 在K8S中部署Prometheus ,我们直接使用开源的 mainfest 文件即可。我们创建单独的 namespace 进行监控

apiVersion: v1
kind: Namespace
metadata:
  name: monitoring

官网如下:

## 参考1 
https://github.com/prometheus-operator/kube-prometheus
###
https://github.com/prometheus-operator/kube-prometheus/tree/main/manifests/setup

## 参考2
https://github.com/camilb/prometheus-kubernetes


###  告警配置
https://www.qikqiak.com/post/prometheus-operator-custom-alert/

安装部署如下:

###先查看k8s 是哪个版本，切到那个版本下
git checkout -b 本地分支 origi/远程分支


###
# Create the namespace and CRDs, and then wait for them to be available before creating the remaining resources
kubectl apply --server-side -f manifests/setup
until kubectl get servicemonitors --all-namespaces ; do date; sleep 1; echo ""; done
kubectl apply -f manifests/

组件分析

（1）kube-state-metrics与metrics-server对比？

我们服务在运行过程中，我们想了解服务运行状态，pod有没有重启，伸缩有没有成功，pod的状态是怎么样的等，这时就需要kube-state-metrics，它主要关注deployment,、node 、 pod等内部对象的状态。而metrics-server 主要用于监测node,pod等的CPU，内存，网络等系统指标。

最后查看是否都起来了：

$ kubectl get po -n monitoring
NAME                                   READY   STATUS    RESTARTS   AGE
alertmanager-main-0                    2/2     Running   0          38m
alertmanager-main-1                    2/2     Running   0          38m
alertmanager-main-2                    2/2     Running   0          38m
blackbox-exporter-776596fdf8-82qj7     3/3     Running   0          39m
grafana-667874d57-xvvpt                1/1     Running   0          39m
kube-state-metrics-584858f6fc-24jlx    3/3     Running   0          12m
node-exporter-hn88p                    2/2     Running   0          39m
node-exporter-jt7b8                    2/2     Running   0          39m
prometheus-adapter-544596c9f5-gsbzp    1/1     Running   0          42s
prometheus-adapter-544596c9f5-rsb7d    1/1     Running   0          42s
prometheus-k8s-0                       2/2     Running   0          38m
prometheus-k8s-1                       2/2     Running   0          38m
prometheus-operator-7ddc6877d5-d58rd   2/2     Running   0          39m

开启对外访问

（1）修改proms的svc

# vi prometheus-service.yaml

##
[root@k8s-01 manifests]# cat prometheus-service.yaml  
apiVersion: v1
kind: Service
metadata:
  labels:
    app.kubernetes.io/component: prometheus
    app.kubernetes.io/instance: k8s
    app.kubernetes.io/name: prometheus
    app.kubernetes.io/part-of: kube-prometheus
    app.kubernetes.io/version: 2.36.1
  name: prometheus-k8s
  namespace: monitoring
spec:
  type: NodePort
  ports:
  - name: web
    port: 9090
    targetPort: web
    nodePort: 30100 # 外部访问

#  - name: reloader-web
#    port: 8080
#    targetPort: reloader-web

  selector:
    app.kubernetes.io/component: prometheus
    app.kubernetes.io/instance: k8s
    app.kubernetes.io/name: prometheus
    app.kubernetes.io/part-of: kube-prometheus
  sessionAffinity: ClientIP
[root@k8s-01 manifests]#

（2）修改grafana的svc

[root@k8s-01 manifests]# cat grafana-service.yaml 
apiVersion: v1
kind: Service
metadata:
  labels:
    app.kubernetes.io/component: grafana
    app.kubernetes.io/name: grafana
    app.kubernetes.io/part-of: kube-prometheus
    app.kubernetes.io/version: 8.5.5
  name: grafana
  namespace: monitoring
spec:
  type: NodePort
  ports:
  - name: http
    port: 3000
    targetPort: http
    nodePort: 30200
  selector:
    app.kubernetes.io/component: grafana
    app.kubernetes.io/name: grafana
    app.kubernetes.io/part-of: kube-prometheus

（3）访问:

##
http://xx.cn:30200
# 
http://xx.cn:30100

### grafana的默认账号和密码为
admin/admin

proms查询

# 查询指定命名空间信息
container_cpu_usage_seconds_total{namespace="car-stg"}

告警规则编写

规则文章可参考如下:

## 参考1
https://awesome-prometheus-alerts.grep.to/rules.html


## 参考2
https://github.com/camilb/prometheus-kubernetes/blob/master/manifests/prometheus/prometheus-k8s-rules.yaml

如何修改alert rule?

####  方式1: 通过rule规则修改
## edit
kubectl edit cm  prometheus-k8s-rulefiles-0  -n monitoring 

#### 方式2： 修改配置文件方式
cd /opt/proms-k8s/kube-prometheus/manifests
vim kubePrometheus-prometheusRule.yaml

### 
kubectl apply kubePrometheus-prometheusRule.yaml

（1）Kubernetes Node ready

  - alert: KubernetesNodeReady
    expr: kube_node_status_condition{condition="Ready",status="true"} == 0
    for: 10m
    labels:
      severity: critical
    annotations:
      summary: Kubernetes Node ready (instance {{ $labels.instance }})
      description: "Node {{ $labels.node }} has been unready for a long time\n  VALUE = {{ $value }}\n  LABELS = {{ $labels }}"

（2）Kubernetes 内存告警

  - alert: KubernetesMemoryPressure
    expr: kube_node_status_condition{condition="MemoryPressure",status="true"} == 1
    for: 2m
    labels:
      severity: critical
    annotations:
      summary: Kubernetes memory pressure (instance {{ $labels.instance }})
      description: "{{ $labels.node }} has MemoryPressure condition\n  VALUE = {{ $value }}\n  LABELS = {{ $labels }}"

（3）Kubernetes out of disk

  - alert: KubernetesOutOfDisk
    expr: kube_node_status_condition{condition="OutOfDisk",status="true"} == 1
    for: 2m
    labels:
      severity: critical
    annotations:
      summary: Kubernetes out of disk (instance {{ $labels.instance }})
      description: "{{ $labels.node }} has OutOfDisk condition\n  VALUE = {{ $value }}\n  LABELS = {{ $labels }}"

配置告警推送到媒介

##

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这