自定义集群监控参数
本文永久链接: https://www.xtplayer.cn/prometheus/custom-parameter/
默认的集群监控配置可能不适用于所有的环境,比如内存 limit 大小,需要根据实际需求进行参数的调整。
调整组件内存
有时候可能会发现 prometheus-cluster-monitoring-0 Pod 中的 prometheus 容器在反复重启,在 promethues 容器日志中并未发现异常错误。类似的错误还在 prometheus-agent、prometheus-proxy 都可能会出现。
如果出现以上现象,说明很有可能是容器内存超过了限制值,容器进程被强制 kill ,导致容器频繁重启。
调整 prometheus 内存
在 集群|工具|监控 配置页面中,可以看到如图的限制配置,可以适当的调整,比如 Prometheus CPU 限制 设置为 4000,Prometheus 内存限制设置为 8192,Node Exporter CPU 限制设置为 500,Node Exporter 内存限制设置为 500。
调整其他组件
在高级选项中添加以下应答
prometheus.resources.proxy.limits.cpu=500m
prometheus.resources.proxy.limits.memory=500Mi
prometheus.resources.auth.limits.cpu=500m
prometheus.resources.auth.limits.memory=500Mi
exporter-kube-state.resources.limits.cpu=500m
exporter-kube-state.resources.limits.memory=1024Mi
grafana.resources.core.limits.cpu=200m
grafana.resources.core.limits.memory=500Mi
grafana.resources.proxy.limits.cpu=100m
grafana.resources.proxy.limits.memory=100Mi
alertmanager.resources.core.limits.cpu=1000m
alertmanager.resources.core.limits.memory=500Mi
alertmanager.resources.config.limits.cpu=100m
alertmanager.resources.config.limits.memory=100Mi
exporter-kube-node.resources.limits.cpu=200m
exporter-kube-node.resources.limits.memory=100Mi其他组件资源配置调整,可以参考此文档 https://github.com/cnrancher/system-charts/blob/release-v2.5-ent/charts/rancher-monitoring/v0.2.2001/values.yaml
调整 prometheus 参数
比如,prometheus 默认是 1 分钟获取一次数据,如果想缩短收集的时间间隔可以通过调整 scrape_interval 参数来设置。
在集群监控配置页的高级选项中添加以下应答:
prometheus.scrapeInterval = 30s |
prometheus 其他参数可以查询此文档: https://github.com/cnrancher/system-charts/blob/release-v2.5-ent/charts/rancher-monitoring/v0.2.2001/charts/prometheus/values.yaml