告警指标说明
更新时间:2024-12-20 09:01:21
PDF
QKE 与云监控 CloudSat 对接,通过在 CloudSat 中设置指标告警规则,您可以及时发现容器服务的异常状况,以保证您业务的稳定性和可靠性。
QKE 支持的告警指标如下表所示。
指标 | 监控周期 | 单位/取值 | 说明 | 配置建议 |
---|---|---|---|---|
正在运行的 Pod 数量 |
5分钟 |
整数,>= 0 |
集群节点上运行的 Pod 数量 |
根据节点类型进行配置,例如:4c/8g时,阈值建议配置为 20。 |
数据盘使用率 |
5分钟 |
%,[0, 100] |
节点内数据盘使用量占总量之比 |
如果持续 1 分钟超过 80%,建议告警。 |
系统盘使用率 |
5分钟 |
%,[0, 100] |
节点内系统盘使用量占总量之比 |
如果持续 1 分钟超过 80%,建议告警。 |
内存使用率 |
5分钟 |
%,[0, 100] |
节点内内存使用量占节点总量之比 |
如果持续 1 分钟超过 50%,建议告警。 |
CPU 负载 |
5分钟 |
核,整数,>= 0 |
节点内已使用的内存 |
如果持续 1 分钟超过 CPU 核数,建议告警。 |
CPU 使用率 |
5分钟 |
%,[0, 100] |
节点内 CPU 使用量占节点总量之比 |
如果持续 1 分钟超过 50%,建议告警。 |
apiserver 的连通性 |
5分钟 |
1 表示正常 |
apiserver 是否能正常连接 |
如果持续 1 分钟,一直为 0(异常),则表示 apiserver 连接异常。 |
说明 |
---|
监控指标的最大值、最小值、平均值及总和,是指在一个监控周期内,指标的最大值、最小值、平均值及总和。 |