监控概览

监控概览模块主要对云产品的整体监控情况进行汇总与展示,为用户提供一个查看入口。用户可从全局视角来查看账号内所有云资源的监控状况,以及核心资源的用量排序。

功能概述

监控概览为用户提供实时查看整体监控数据的功能,将云平台最核心的服务监控指标使用率情况集中呈现在一张监控大屏里,根据用户的资源运行与监控状态进行实时的监测与更新,为用户定制一个立体化监控平台,供用户进行全局管理。

监控概览内,提供了资源整体监控告警情况统计、告警统计、云服务器核心指标使用量监控与排序、网络核心指标的监控与排序、存储关键指标的监控与排序等。 通过查看监控概览,让用户实时了解各云服务的资源使用情况和告警情况。

监控概览的主要展示信息分为以下四大类:

  • 实时展示资源类型与总数统计。

  • 各资源告警、正常、未配置告警策略数据统计展示。

  • 近 24 小时事件/告警统计数据展示。

  • 资源核心指标数据总和以及 Top5 统计展示。

适用场景

  • 在日常运维工作中,满足用户对账号下全部基础资源的全局监控状态视角概览需求,可了解并把控所有资源的整体运行健康情况。

  • 在进行运维工作整体优化评估时,可参考所有资源的报警数据趋势图,分析并发现资源出现异常时的高峰时段,加以应对与防范。

  • 可通过资源用量排序了解核心基础资源的使用情况,有助于用户及时执行配置调整。

Dashboard

云监控的 Dashboard 功能为用户提供自定义查看监控数据、定位异常资源的功能。用户可跨区域、跨资源类型创建自定义监控图表与面板。该功能可灵活、高效地适用于各类监控场景下,实现对同类指标的对比监控需求。用户可以在一张监控大屏中跨资源类型、跨实例查看监控数据,并将相同业务的不同资源指标集中展现。

功能概述

监控 Dashboard 为用户提供了可跨资源类型、跨指标类型、跨可用区的自定义集中监控服务,用户可根据业务需求,将各类维度的数据集中在同一个面板下,进行统一可视化监控。

监控 Dashboard 支持丰富的监控时间周期,在每种监控周期下对应的监控间隔粒度都有所不同,用户可根据监控场景选择符合需求的时间周期。同时,若需要对某一个时间周期下的关键时间点进行进一步操作,可选择 暂停 刷新的设置,面板将停止自动刷新。

术语解释

  • 指标:指标作为具体监控资源中的变量值,如云服务器的 CPU 使用率,也是本次监控 Dashboard 最核心的变量。

  • 面板:可自定义图表的面板区域,一个账号可创建多个面板,可对面板进行重命名、删除等操作。

  • 图表:一张监控图表由资源所属区域、某一类具体资源、该资源的某一个具体指标、需要监控的资源实例(上限 10 个)等四个主要因素构成,最终集成为图形化数据,支持折线图 + 列表详述。

  • 监控周期:监控指标的时间范围,目前分别支持:最近 6 小时最近一天最近两周最近一个月最近六个月用户自定义周期。按面板页面级统一控制。

  • 监控粒度:实时监控指标的时间粒度,具体监控的时间粒度与对应的时间周期有关。

适用场景

  • 监控面板: 监控面板是可供用户自定义编辑的监控视图区,可向监控面板内加入不同区域、不同资源、不同指标的监控图表。

  • 监控图表: 用户可在某一区域内自行创建该区内某类资源的多个实例、单个指标集成的数据图形。创建完成后,可对已创建的图表进行查看、修改、数据导出、删除等操作。

  • 面板全屏: 用户可在面板图表生成之后进行集中监控,若暂时不再操作图表以及面板的其他功能,仅需要盯屏查看监控图表以及数据,可选择全屏显示模式,进入全屏式面板。全屏式面板的监控可视化图表效果更佳,同时依然可以支持在监控面板上的数据查看、时间周期切换等功能。

云服务监控

功能概述

云服务监控是所有云服务产品监控数据的展示平台,可以为用户提供当前账号下的云服务资源列表以及对应的监控指标和告警策略。使得用户可以更为方便的了解资源的运行情况。

当前已对接负载均衡器和应用服务(包含集群和部分应用)的监控数据。

适用场景

  • 云服务监控支持负载均衡器,用户可以在云监控中查看当前账号下的负载均衡的监控数据,并支持以负载均衡节点、监听器和监听器后端多维度设置告警策略。

  • 云服务监控支持应用服务,用户可以在云监控中查看当前账号下的集群和部分应用的监控数据,并支持多维度设置告警策略。

分组管理

实例分组提供了跨云产品、跨地域的云产品资源分组管理功能。使得用户可根据云资源的实际业务划分,对资源实例进行分组监控,集中配置告警策略,从而提升运维效率。

用户可以从业务角度、组织结构、资源规划等视角,集中管理业务线涉及到的云服务器、硬盘、数据库、负载均衡、网络等各类核心资源,从而按业务线、组织架构等分类,来管理资源涉及到的报警规则,并高效查看监控数据,从而可以迅速提升运维效率。

核心功能

  • 列表汇总所有的分组信息,展示组内的关键统计信息,如:资源类型、资源总数、告警资源数/未告警资源数/未配置告警规则的资源数、创建类型、操作等。

  • 管理实例分组。

  • 管理告警规则。

支持的监控资源包括:

  • 云服务器的状态、告警服务以及告警状态。

  • VPC 网络的状态、告警服务以及告警状态。

  • 公网 IP 的状态、告警服务以及告警状态。

适用场景

  • 购买了多类型云产品的客户,需要利用分组功能将同一业务相关的云服务器、数据库、对象存储、缓存等资源添加到同一分组中进行集中管理。在分组维度内集中去管理报警规则,查看监控数据,可以极大地降低管理复杂度,提高云监控使用效率。

  • 客户在购买了云资源后,所部署的业务重要程度不同,对核心系统需要最高标准的监控告警服务;对非核心的业务系统则需要相对中级的告警策略设置,此类场景,适合将不同重要度的资源集中起来,统一管理、统一批量设置与绑定告警策略。

  • 云资源运维人员若需要对不同部门、不同业务使用资源的情况进行分组查看与管理,则可使用实例分组,按照部门或者业务进行资源划分,清晰了解到各组内的资源情况。

事件监控

事件监控模块汇集了云产品各类运维事件,以及用户业务的异常事件,并对各类事件进行整体统计与展示,提供多种细查方式与查询模式,提供按资源类型、事件类型、事件名称等多种筛选模式下的事件汇总统计结果,便于关联业务与问题复盘。除此之外,可直接在事件监控列表上进行告警策略的设置与修改工作。

云监控服务中的事件监控功能作为云平台事件信息中枢,产品化了云平台各类基础资源的生命周期与运转中的重要事件信息,并构建完善的事件消费渠道与流程,支撑客户云上监控与运维。

核心能力

  • 集中统计展示系统预置的云产品关键事件。

  • 支持不同视图形式下的事件信息展示。

  • 支持对用户关注的事件进行告警策略设置。

适用场景

  • 为日常运维工作,提供更加完善的云上资源监控信息维度,为监控运维提供更全面数据支撑。

  • 在对监控数据进行数据消费的环节,提供事件信息消费渠道,帮助用户转化监控信息价值。

告警服务

告警功能提供对监控指标的告警服务支持,用户对云服务的核心监控指标设置告警规则,当监控指标触发用户设置的告警规则阈值时,则会按照用户设置的查收通知形式,收取告警信息。目前平台支持以邮箱、短信等方式通知用户,让用户可以在第一时间得知云资源发生的异常情况,快速准确定位,并迅速处理故障,避免因资源问题或者外部操作原因,造成业务上的损失。

监控告警功能是对资源层面的监控数据,设置告警条件和通知列表, 有助于及时了解资源使用情况和处理突发事件。具体包含以下几个核心的功能点:

  • 设置告警策略规则。

  • 绑定资源到具体的告警规则内。

  • 设置告警通知联系人。

  • 设置联系人接收方式。

适用场景

目前支持的监控项包括:

云服务器

  • CPU 使用百分比

  • 内存使用百分比

  • 磁盘空间使用百分比,检查范围包括云服务器中所有已挂载(mount)的分区

  • 云服务器网卡的进流量,检查范围包括云服务器所有网卡

  • 云服务器网卡的出流量,检查范围包括云服务器所有网卡

公网IP

  • 公网进流量

  • 公网出流量

路由器

说明

路由器新增针对网络 PPS 和路由器 CPU / 内存的监控告警仅支持新的区域和可用区。

  • 路由器所连网络的进流量,检查范围包括所有与此路由器连接的私有网络

  • 路由器所连网络的出流量,检查范围包括所有与此路由器连接的私有网络

  • 路由器所连网络的入口 PPS,检查范围包括所有与此路由器连接的私有网络

  • 路由器所连网络的出口 PPS,检查范围包括所有与此路由器连接的私有网络

  • 路由器自身的 CPU 利用率

  • 路由器自身的内存利用率

私有网络

说明

私有网络监控告警仅支持新的区域和可用区。

  • 私有网络所有网卡的进流量,检查范围包括私有网络内的所有网卡

  • 私有网络所有网卡的出流量,检查范围包括私有网络内的所有网卡

  • 私有网络所有网卡的入口 PPS,检查范围包括私有网络内的所有网卡

  • 私有网络所有网卡的出口 PPS,检查范围包括私有网络内的所有网卡

负载均衡器

  1. 监听器 HTTP/HTTPS 协议

    • 请求数:接收到的请求数

    • 平均响应延迟时间:监听器下所有后端的响应时间

    • 平均并发数:并发连接数

    • 后端1xx/2xx/3xx/4xx/5xx响应数:监听器下所有后端返回的,对应状态码的响应数

    • 后端服务器可用个数

    • 后端服务器不可用个数

  2. 监听器 TCP 协议

    • 连接数:监听器下所有后端的 TCP 连接数

    • 平均并发数:并发连接数

    • 后端服务器可用个数

    • 后端服务器不可用个数

  3. 后端服务 HTTP 协议

    • 平均响应延迟时间:监听器下所有后端的响应时间

    • 服务状态:后端服务器是否异常

    • 后端1xx/2xx/3xx/4xx/5xx响应数:此后端返回的,对应状态码的响应数

  4. 后端服务 TCP 协议

    • 连接数:此后端的 TCP 连接数

    • 服务状态:后端服务器是否异常

关系型数据库

关系型数据库的监控告警只会监控主节点,包括如下监控项:

  • CPU:CPU 使用百分比

  • 内存:内存使用百分比

  • 磁盘使用率:磁盘空间使用百分比

  • 活跃连接数:数据库的活跃连接数

  • 查询请求:数据库执行的所有查询请求的次数

  • 慢查询:根据数据库配置的慢查询标准,监控慢查询的次数

  • 全表扫描次数:发生全表扫描的次数。 (全表扫描是数据库服务器用来搜寻表的每一条记录的过程, 直到所有符合给定条件的记录返回为止,大多发生在对无索引的表进行查询)

MongoDB

  • CPU:CPU 使用百分比

  • 内存:内存使用百分比

  • 磁盘使用率:磁盘空间使用百分比

  • 连接数:数据库的连接数

Redis/Memcached

  • 内存利用率:内存使用百分比

  • 被拒绝 key 个数

Zookeeper

  • CPU:CPU 使用百分比

  • 内存:内存使用百分比

  • 集群服务是否可用

Kafka

  • CPU:CPU 使用百分比

  • 内存:内存使用百分比

  • 磁盘使用率:磁盘空间使用百分比

  • 出现未复制分区或离线分区

ElasticSearch

  • CPU:CPU 使用百分比

  • 内存:内存使用百分比

  • 磁盘使用率:磁盘空间使用百分比

告警服务(新版)

告警服务提供告警策略、告警记录和一键告警功能。

功能概述

  • 告警策略

    告警策略为用户提供监控指标告警功能。用户可以对云服务器的监控项和云服务产品的监控项设置告警策略。当监控指标在一定周期内多次触发告警策略的阈值时,系统将向用户发送告警通知,通知方式支持邮件、短信和webhook等。

  • 告警记录

    云监控提供告警记录功能,帮助用户回溯和查看近半年的告警历史记录。

  • 一键告警

    一键告警功能为用户提供一键开启指定云服务产品关键监控项的告警服务,帮助用户快速建立云服务的告警体系,及时处理异常。

适用场景

为了防止云服务产品监控指标达到异常状态,影响业务的正常运行。用户可以对云服务产品的监控指标设置告警策略,当监控数据满足告警策略触发条件时,发送告警通知给用户,帮助用户在第一时间了解云服务产品的异常情况,并迅速处理,避免造成业务上损失。

自定义监控

自定义监控的功能支持,可满足云平台已有用户、非云平台用户对基础资源的指标监控需求,可与 CloudSat 服务内的其他功能结合使用,形成完整的立体化监控告警服务。 在自定义监控功能模块内,需要完成以下几个目标:

  • 对体量较大的客户,可上报非平台预置、其他云平台上的监控数据

  • 对非云平台用户,在自定义功能内,提供轻量、简易的数据上报与监控管理能力

  • 可接入 Zabbix 的基础监控数据,运用 CloudSat 的告警服务、dashboard、图形化指标数据展示等各类功能,简化运维人员运维工作,实现通过云平台达成全面监控的目标弹性裸金属服务器是即将推出的一款全新产品。

功能概述

  • 上报数据:按规定路径与参数规范,进行监控指标数据上报。

  • 数据上报状态:系统会对上报的监控数据的各种状态进行及时的反馈与同步,包括延迟/上报失败原因等,保证用户对自定义上报的数据的可控性。

  • 上报后数据展示样式/展示条件/限制/功能:数据归属(组)/图形展示,按数据归属组(命名空间)/维度等过滤查询,数据保存时间/数据类型要求/设置告警规则/查看数据/图形等。

适用场景

  • 自定义监控是提供给用户可自由定义监控项及报警规则的能力。用户可以针对自己关心的业务指标进行监控,将采集到监控数据上报至云监控,由云监控来进行数据的处理,并根据处理结果进行报警。

  • 兼容云平台用户、非云平台用户对基础资源的指标监控需求,可与 CloudSat 服务内的其他功能关联使用,形成全面的立体化监控告警服务。