Milvus 服务的警报机制

本主题介绍了 Milvus 服务的警报机制，并解释了何时以及如何创建 Milvus 警报。

通过创建警报，您可以在特定指标的值超过您预定义的阈值时收到通知。

比如，您创建了一个警报，并将 80 MB 设置为 Milvus 组件的内存使用的最大值。如果实际使用超过预定义的数字，您将收到提醒，提醒您 Milvus 组件的内存使用超过 80 MB。在收到警报后，您可以及时调整资源分配，以确保服务可用性。

创建警报的场景

以下是您需要创建警报的一些常见场景。

Milvus 组件的 CPU 或内存使用过高。
Milvus 组件的 Pod 磁盘空间不足。
Milvus 组件的 Pod 频繁重启。

以下指标可用于警报配置：

指标	描述	计量单位
CPU 使用率	Milvus 组件使用 CPU 运行时间指示的 CPU 使用率。	秒
内存	Milvus 组件消耗的内存资源。	MB
Goroutines	GO 语言中正在并发执行的活动。	/
操作系统线程数	操作系统中的线程或轻量级进程。	/
进程已打开文件描述符数	当前使用的文件描述符数量。	/

设置警报

本指南以创建Milvus组件内存使用警报为例。如果要创建其他类型的警报，请相应地调整命令。如果在过程中遇到任何问题，请在Milvus论坛 (opens in a new tab)或Slack (opens in a new tab)上发起讨论。

先决条件

本教程假定您已安装和配置了Grafana。如果没有，我们建议先阅读监控指南。

1. 添加新的查询

添加内存使用率的报警，请编辑 Memory 面板，并添加一个新的查询指标，如下所示：process_resident_memory_bytes {app_kubernetes_io_name="milvus", app_kubernetes_io_instance = ~"my-release", namespace="default"}

(opens in a new tab)