PostgreSQL 监控告警是通过云监控告警服务为集群服务器的资源和服务提供监控管理。当集群监控项超过阈值时触发告警,并通过短信、邮件等形式发送告警通知。

  • 支持设置统一通知策略

  • 支持绑定指标告警策略,自定义告警规则和监控项,及时监控 PostgreSQL 各项指标状态。

    • 可自定义告警项:CPU利用率内存使用率磁盘使用量节点服务状态从节点复制落后主节点秒数连接数死锁数

    • 可自定义告警监控周期:1分钟5分钟

前提条件

  • 已获取管理控制台登录账号和密码,且已获取集群操作权限。

  • 已创建 PostgreSQL 集群,且集群状态为活跃

绑定指标告警策略

PostgreSQL 支持对每个缓存节点配置指标告警策略。当业务发生异常时,会触发用户设定的告警阈值,并发送短信或邮件通知用户。

  1. 在集群管理页面,点击集群 ID,进入集群详情页面。

  2. 告警页签,选择节点,并点击列表上方绑定指标告警策略

    告警
  3. 在弹出的指标告警策略配置窗口,选择指标告警策略,并点击提交

    若无可选指标告警策略,请参考创建指标告警策略

    配置指标告警策略
  4. 返回告警页签,选中已绑定指标告警策略节点,可查看配置的指标和告警历史。

    查看通知策略

创建指标告警策略

  1. 在指标告警策略配置窗口,点击创建指标告警策略,弹出创建告警策略窗口。

  2. 配置告警基本参数。

    配置告警行为
    • 名称 :输入告警策略名称。

    • 对象范围 :默认为平台监控

    • 告警类型 :默认为指标告警,即对集群指标进行监控告警。

    • 资源类型 :默认为集群节点

    • 监控周期 :可选择1分钟5分钟。默认为5分钟,免费使用。

  3. 点击下一步,配置告警规则。 点击添加规则,并可配置指标规则阈值和告警级别,一个策略可添加多条指标规则。告警规则配置取值说明,请参见告警项说明

    说明

    有多条指标规则时,任何一条规则满足条件都会触发告警。

    配置告警行为
  4. 点击下一步,配置告警行为。

    配置告警行为
    • 发送通知 :选择是否发送告警通知,默认为

    • 触发条件 :选择告警触发条件,可选择资源变为告警时资源恢复正常时

    • 告警次数 :当资源持续处于告警状态时,连续发送通知的次数。最多为100次。

    • 通知列表 :选择告警通知列表。

  5. 确认配置无误后,点击提交,返回指标告警策略配置窗口,即可选择新创建的告警策略。

说明

更多告警策略管理说明,请参见云监控 CloudSat 告警服务

告警项说明

告警项 推荐值 告警说明

CPU利用率

80%

检测 CPU 使用率。若 CPU 过高会导致性能下降、崩溃等。

内存使用率

80%

检测内存使用率。若持续增高会导致数据库不可用。

磁盘使用量

80%

检测硬盘使用率。若磁盘满会导致数据无法落盘。

节点服务状态

1

检测服务是否可用。

从节点复制落后主节点秒数

10s

检测从节点复制落后主节点秒数。

连接数

100

检测当前连接到 PostgreSQL 的总连接数。

死锁数

5

检测当 PostgreSQL 的死锁总数。

设置统一通知策略

节点绑定指标告警策略后,通过设置统一通知策略,可将告警通知统一发送至一个通知列表。

注意

设置统一通知策略后,节点绑定的指标告警策略所关联的通知列表,将无法收到告警通知,请注意运维业务分配情况。

  1. 在集群管理页面,点击集群 ID,进入集群详情页面。

  2. 告警页签,点击通知策略模块下设置

  3. 在弹出的通知策略配置窗口,选择通知策略,并点击提交

    配置通知策略
  4. 返回告警页签,查看配置的统一通知策略。

    查看通知策略