QingMR 集群监控告警可通过云监控告警服务为集群服务器的资源和服务提供监控告警管理。当集群监控项超过阈值时触发告警,并通过短信、邮件等形式发送告警通知。

  • 通过绑定指标告警策略,您可以自定义告警规则和监控项,及时监控 QingMR 各项指标状态。

    • 可自定义监控项:CPU利用率内存使用率磁盘使用量节点服务状态

    • 可自定义监控周期:1分钟5分钟

  • 通过设置统一通知策略,可将告警统一发送至配置的通知列表。

前提条件

  • 已获取管理控制台登录账号和密码,且已获取集群操作权限。

  • 已创建 QingMR 集群,且集群状态为活跃

绑定指标告警策略

QingMR 支持对每个节点配置指标告警策略。当业务发生异常时,会触发用户设定的告警阈值,并发送短信或邮件通知用户。

  1. 在集群管理页面,点击集群 ID,进入集群详情页面。

  2. 告警页签,选择节点,并点击列表上方绑定指标告警策略

    告警
  3. 在弹出的指标告警策略配置窗口,选择指标告警策略,并点击提交

    说明

    若无可选指标告警策略,请参考创建指标告警策略进行新建。

    配置指标告警策略
  4. 返回告警页签,选中已绑定指标告警策略节点,可查看配置的指标和告警历史。

    查看通知策略

创建指标告警策略

  1. 在指标告警策略配置窗口,点击创建指标告警策略,弹出创建告警策略窗口。

  2. 配置告警基本参数。

    • 名称:输入告警策略名称。

    • 对象范围:默认为平台监控

    • 告警类型:默认为指标告警,即对集群指标进行监控告警。

    • 资源类型:默认为集群节点

    • 监控周期:可选择1分钟5分钟。默认为5分钟,免费使用。

    配置告警行为
  3. 点击下一步,配置告警规则。

    点击添加规则,并可配置指标规则阈值和告警级别,一个策略可添加多条指标规则。

    说明

    有多条指标规则时,任何一条规则满足条件都会触发告警。

    配置告警行为
  4. 点击下一步,配置告警行为。

    • 发送通知:选择是否发送告警通知,默认为

    • 触发条件:选择告警触发条件,可选择资源变为告警时资源恢复正常时

    • 告警次数:当资源持续处于告警状态时,连续发送通知的次数。最多为100次。

    • 通知列表:选择告警通知列表。

    配置告警行为
  5. 确认配置无误后,点击提交,返回指标告警策略配置窗口,即可选择新创建的告警策略。

    说明

    更多告警策略管理说明,请参见云监控 CloudSat 告警服务

    配置新告警策略

设置统一通知策略

设置统一通知策略后,当集群产生告警,将统一发送至配置的通知列表。

注意

设置统一通知策略后,节点绑定的指标告警策略所关联的通知列表,将无法收到告警通知,请注意运维业务分配情况。

  1. 在集群管理页面,点击集群 ID,进入集群详情页面。

  2. 告警页签,点击通知策略模块下设置

    告警
  3. 在弹出的通知策略配置窗口,选择通知策略,并点击提交

    配置通知策略
  4. 返回告警页签,查看配置的统一通知策略。

    查看通知策略