为 Milvus 服务创建警报

本主题介绍了 Milvus 服务的警报机制，并解释了何时以及如何创建 Milvus 中的警报。

通过创建警报，你可以在特定指标的值超过你预定义的阈值时收到通知。

例如，你创建了一个警报，并将 80 MB 设置为 Milvus 组件的内存使用量的最大值。如果实际使用量超过预定义的数值，你将收到警报提醒你 Milvus 组件的内存使用量超过了 80 MB。接收到警报后，你可以相应地及时调整资源分配，以确保服务的可用性。

创建警报的场景

以下是一些需要为其创建警报的常见场景。

Milvus 组件的 CPU 或内存使用率过高。
Milvus 组件的 Pod 磁盘空间不足。
Milvus 组件的 Pod 频繁重启。

以下是可用于警报配置的指标：

指标	描述	计量单位
CPU 使用率	Milvus 组件的 CPU 使用率，由 CPU 的运行时间表示。	秒
内存	Milvus 组件消耗的内存资源。	MB
Goroutines（Go 例程）	GO 语言中的并发执行活动。	/
操作系统线程	操作系统中的线程或轻型进程。	/
进程打开的文件描述符	当前使用的文件描述符数量。	/

设置警报

本指南以为 Milvus 组件的内存使用量创建警报为例。要创建其他类型的警报，请相应调整你的命令。如果在过程中遇到任何问题，请随时在 Milvus 论坛 (opens in a new tab) 提问或在 Slack (opens in a new tab) 上发起讨论。

先决条件

本教程假设你已安装并配置了 Grafana。如果没有安装，我们建议阅读监控指南。

1. 添加新查询

要为 Milvus 组件的内存使用量添加警报，请编辑内存面板。然后，添加一个新的查询，其指标为：process_resident_memory_bytes{app_kubernetes_io_name="milvus", app_kubernetes_io_instance=~"my-release", namespace="default"}

Alert_metric