背景描述

随着客户的业务发展,企业上云会面临大规模多类型的云产品资源监控运维问题,日常监控往往分布在多地,多业务,多资源无法统一高效监控。本篇实践旨在帮助您使用 CloudSat 提供分组管理和告警服务,可以帮助您的资源进行按业务有效分组,以及规模化的构建告警体系,迅速提升运维效率。

主要概念

  • 分组管理

    指对平台所有 IaaS、PaaS 资源的分组,可在分组后集中管理组内的监控告警服务。更多信息,请参阅分组管理

  • 告警服务

    由资源类型、检查周期、告警条件/规则、通知列表等信息组成的具体策略,将策略绑定到具体资源上即可生效。更多信息,请参阅告警服务

操作步骤

假设我们有多种资源,一部分用于开发项目组(开发项目正式服务 01 和开发项目正式服务 02),一部分用于测试项目组,业务涉及资源分散于 北京 3 区上海 1 区。以该场景为例,操作步骤详细说明如下。

  1. 新建分组并根据实际需求,添加资源,详情可参考创建分组实例

  2. 完成后可明确了解当前各业务线资源整体概况,迅速定位分组内资源的关系,快速了解资源的监控告警状态,迅速察觉异常情况。

    bp resource alarm 1
  3. 点击分组名称/ID,进入其详情页面,即可在汇聚视图中查看正在告警的资源,并迅速定位具体异常对象。

    bp resource alarm 2
  4. 通过告警状况进行针对性排障,如资源超载可以通过扩展资源的方式进行解决。

  5. 汇聚视图中若发现未配置告警服务的资源类型,可在分组详情页的关联模板页签内绑定告警模板,快速为各项资源绑定告警策略。具体可参考分组管理的绑定告警模板相关操作。

    bp resource alarm 3
  6. 关联模板页签内,点击模板 ID,即可查看当前分组绑定的告警规则有哪些。

    bp resource alarm 5
  7. 告警记录中可查看当前分组内各资源的告警情况。

    bp resource alarm 4
  8. 选择某一条告警记录,点击告警记录操作列的详情,查看告警的具体内容。