跳至主要内容
跳至主要内容

监控

注意

本指南中概述的监控数据可在 ClickHouse Cloud 中访问。除了通过下面描述的内置仪表板显示之外,基本和高级性能指标也可以直接在主服务控制台中查看。

您可以监控

  • 硬件资源的使用情况。
  • ClickHouse 服务器指标。

内置的高级可观测性仪表板

Screenshot 2023-11-12 at 6 08 58 PM

ClickHouse 带有内置的高级可观测性仪表板功能,可以通过 $HOST:$PORT/dashboard 访问(需要用户名和密码),它显示以下指标

  • 每秒查询数
  • CPU 使用率(核心数)
  • 正在运行的查询
  • 正在运行的合并
  • 每秒选择的字节数
  • IO 等待
  • CPU 等待
  • 操作系统 CPU 使用率(用户空间)
  • 操作系统 CPU 使用率(内核空间)
  • 从磁盘读取
  • 从文件系统读取
  • 内存(已跟踪)
  • 每秒插入的行数
  • 总的 MergeTree 分区
  • 每个分区的最大分区数

资源利用率

ClickHouse 还会自行监控硬件资源的状态,例如

  • 处理器的负载和温度。
  • 存储系统、RAM 和网络的使用情况。

此数据收集在 system.asynchronous_metric_log 表中。

ClickHouse 服务器指标

ClickHouse 服务器具有嵌入式工具,用于自我状态监控。

要跟踪服务器事件,请使用服务器日志。请参阅配置文件中的 logger 部分。

ClickHouse 收集

  • 服务器如何使用计算资源的各种指标。
  • 关于查询处理的常见统计信息。

您可以在 system.metricssystem.eventssystem.asynchronous_metrics 表中找到指标。

您可以配置 ClickHouse 将指标导出到 Graphite。请参阅 ClickHouse 服务器配置文件中的 Graphite 部分。在配置指标导出之前,您应该按照他们的官方 指南 设置 Graphite。

您可以配置 ClickHouse 将指标导出到 Prometheus。请参阅 ClickHouse 服务器配置文件中的 Prometheus 部分。在配置指标导出之前,您应该按照他们的官方 指南 设置 Prometheus。

此外,您可以通过 HTTP API 监控服务器可用性。向 /ping 发送 HTTP GET 请求。如果服务器可用,它将响应 200 OK

要监控集群配置中的服务器,您应该设置 max_replica_delay_for_distributed_queries 参数并使用 HTTP 资源 /replicas_status。向 /replicas_status 发送请求,如果副本可用且未延迟于其他副本,则返回 200 OK。如果副本延迟,则返回 503 HTTP_SERVICE_UNAVAILABLE,其中包含有关差距的信息。

    © . This site is unofficial and not affiliated with ClickHouse, Inc.