监控
本指南中概述的监控数据可在 ClickHouse Cloud 中访问。除了通过下面描述的内置仪表板显示外,基本和高级性能指标也可以直接在主服务控制台中查看。
您可以监控
- 硬件资源利用率。
- ClickHouse 服务器指标。
内置高级可观测性仪表板
ClickHouse 配备了内置的高级可观测性仪表板功能,可以通过 $HOST:$PORT/dashboard
(需要用户名和密码) 访问,该仪表板显示以下指标
- 每秒查询数
- CPU 使用率(核心)
- 正在运行的查询
- 正在运行的合并
- 每秒选择字节数
- IO 等待
- CPU 等待
- 操作系统 CPU 使用率(用户空间)
- 操作系统 CPU 使用率(内核)
- 从磁盘读取
- 从文件系统读取
- 内存(已跟踪)
- 每秒插入行数
- MergeTree 总部件数
- 每个分区的最大部件数
资源利用率
ClickHouse 还会自行监控硬件资源的状态,例如
- 处理器上的负载和温度。
- 存储系统、RAM 和网络的利用率。
此数据收集在 system.asynchronous_metric_log
表中。
ClickHouse 服务器指标
ClickHouse 服务器具有用于自我状态监控的嵌入式工具。
要跟踪服务器事件,请使用服务器日志。请参阅配置文件的 logger 部分。
ClickHouse 收集
- 服务器如何使用计算资源的不同指标。
- 查询处理的常用统计信息。
您可以在 system.metrics、system.events 和 system.asynchronous_metrics 表中找到指标。
您可以将 ClickHouse 配置为将指标导出到 Graphite。请参阅 ClickHouse 服务器配置文件中的 Graphite section。在配置指标导出之前,您应该按照其官方 指南 设置 Graphite。
您可以将 ClickHouse 配置为将指标导出到 Prometheus。请参阅 ClickHouse 服务器配置文件中的 Prometheus section。在配置指标导出之前,您应该按照其官方 指南 设置 Prometheus。
此外,您可以通过 HTTP API 监控服务器可用性。向 /ping
发送 HTTP GET
请求。如果服务器可用,它将响应 200 OK
。
要监控集群配置中的服务器,您应该设置 max_replica_delay_for_distributed_queries 参数并使用 HTTP 资源 /replicas_status
。如果副本可用且未落后于其他副本,则对 /replicas_status
的请求返回 200 OK
。如果副本延迟,则返回 503 HTTP_SERVICE_UNAVAILABLE
,其中包含有关差距的信息。