自定义集群监控参数

本文永久链接: https://www.xtplayer.cn/prometheus/custom-parameter/

默认的集群监控配置可能不适用于所有的环境，比如内存 limit 大小，需要根据实际需求进行参数的调整。

调整组件内存

有时候可能会发现 prometheus-cluster-monitoring-0 Pod 中的 prometheus 容器在反复重启，在 promethues 容器日志中并未发现异常错误。类似的错误还在 prometheus-agent、prometheus-proxy 都可能会出现。

如果出现以上现象，说明很有可能是容器内存超过了限制值，容器进程被强制 kill ，导致容器频繁重启。

调整 prometheus 内存

在 集群|工具|监控 配置页面中，可以看到如图的限制配置，可以适当的调整，比如 Prometheus CPU 限制设置为 4000，Prometheus 内存限制设置为 8192，Node Exporter CPU 限制设置为 500，Node Exporter 内存限制设置为 500。

调整其他组件

在高级选项中添加以下应答

prometheus.resources.proxy.limits.cpu=500m
prometheus.resources.proxy.limits.memory=500Mi

prometheus.resources.auth.limits.cpu=500m
prometheus.resources.auth.limits.memory=500Mi

exporter-kube-state.resources.limits.cpu=500m
exporter-kube-state.resources.limits.memory=1024Mi

grafana.resources.core.limits.cpu=200m
grafana.resources.core.limits.memory=500Mi

grafana.resources.proxy.limits.cpu=100m
grafana.resources.proxy.limits.memory=100Mi

alertmanager.resources.core.limits.cpu=1000m
alertmanager.resources.core.limits.memory=500Mi

alertmanager.resources.config.limits.cpu=100m
alertmanager.resources.config.limits.memory=100Mi

exporter-kube-node.resources.limits.cpu=200m
exporter-kube-node.resources.limits.memory=100Mi