本文永久链接: https://www.xtplayer.cn/prometheus/custom-parameter/

默认的集群监控配置可能不适用于所有的环境,比如内存 limit 大小,需要根据实际需求进行参数的调整。

调整组件内存

有时候可能会发现 prometheus-cluster-monitoring-0 Pod 中的 prometheus 容器在反复重启,在 promethues 容器日志中并未发现异常错误。类似的错误还在 prometheus-agent、prometheus-proxy 都可能会出现。

如果出现以上现象,说明很有可能是容器内存超过了限制值,容器进程被强制 kill ,导致容器频繁重启。

  1. 调整 prometheus 内存

    集群|工具|监控 配置页面中,可以看到如图的限制配置,可以适当的调整,比如 Prometheus CPU 限制 设置为 4000,Prometheus 内存限制设置为 8192,Node Exporter CPU 限制设置为 500,Node Exporter 内存限制设置为 500。

  2. 调整其他组件

    在高级选项中添加以下应答

    prometheus.resources.proxy.limits.cpu=500m
    prometheus.resources.proxy.limits.memory=500Mi

    prometheus.resources.auth.limits.cpu=500m
    prometheus.resources.auth.limits.memory=500Mi

    exporter-kube-state.resources.limits.cpu=500m
    exporter-kube-state.resources.limits.memory=1024Mi

    grafana.resources.core.limits.cpu=200m
    grafana.resources.core.limits.memory=500Mi

    grafana.resources.proxy.limits.cpu=100m
    grafana.resources.proxy.limits.memory=100Mi

    alertmanager.resources.core.limits.cpu=1000m
    alertmanager.resources.core.limits.memory=500Mi

    alertmanager.resources.config.limits.cpu=100m
    alertmanager.resources.config.limits.memory=100Mi

    exporter-kube-node.resources.limits.cpu=200m
    exporter-kube-node.resources.limits.memory=100Mi

    其他组件资源配置调整,可以参考此文档 https://github.com/cnrancher/system-charts/blob/release-v2.5-ent/charts/rancher-monitoring/v0.2.2001/values.yaml

调整 prometheus 参数

比如,prometheus 默认是 1 分钟获取一次数据,如果想缩短收集的时间间隔可以通过调整 scrape_interval 参数来设置。

在集群监控配置页的高级选项中添加以下应答:

prometheus.scrapeInterval = 30s

prometheus 其他参数可以查询此文档: https://github.com/cnrancher/system-charts/blob/release-v2.5-ent/charts/rancher-monitoring/v0.2.2001/charts/prometheus/values.yaml