警报(alert)

Milvus 服务的警报机制

本主题介绍了 Milvus 服务的警报机制,并解释了何时以及如何创建 Milvus 警报。

通过创建警报,您可以在特定指标的值超过您预定义的阈值时收到通知。

比如,您创建了一个警报,并将 80 MB 设置为 Milvus 组件的内存使用的最大值。如果实际使用超过预定义的数字,您将收到提醒,提醒您 Milvus 组件的内存使用超过 80 MB。在收到警报后,您可以及时调整资源分配,以确保服务可用性。

创建警报的场景

以下是您需要创建警报的一些常见场景。

  • Milvus 组件的 CPU 或内存使用过高。

  • Milvus 组件的 Pod 磁盘空间不足。

  • Milvus 组件的 Pod 频繁重启。

以下指标可用于警报配置:

指标描述计量单位
CPU 使用率Milvus 组件使用 CPU 运行时间指示的 CPU 使用率。
内存Milvus 组件消耗的内存资源。MB
GoroutinesGO 语言中正在并发执行的活动。/
操作系统线程数操作系统中的线程或轻量级进程。/
进程已打开文件描述符数当前使用的文件描述符数量。/

设置警报

本指南以创建Milvus组件内存使用警报为例。如果要创建其他类型的警报,请相应地调整命令。如果在过程中遇到任何问题,请在Milvus论坛 (opens in a new tab)Slack (opens in a new tab)上发起讨论。

先决条件

本教程假定您已安装和配置了Grafana。如果没有,我们建议先阅读监控指南

1. 添加新的查询

添加内存使用率的报警,请编辑 Memory 面板,并添加一个新的查询指标,如下所示:process_resident_memory_bytes {app_kubernetes_io_name="milvus", app_kubernetes_io_instance = ~"my-release", namespace="default"}

Alert_metric (opens in a new tab)

添加警报。

2. 保存仪表板

保存仪表板,并等待几分钟查看警报。

Alert_dashboard (opens in a new tab)

保存仪表板。

Grafana警报查询不支持模板变量。因此,您应添加一个没有任何模板变量的标签的第二个查询。第二个查询默认名为“A”。您可以通过点击下拉菜单进行重命名。

Alert_query (opens in a new tab)

新添加的查询。

3. 添加警报通知

为接收警报通知,请添加一个“通知渠道”。然后,在“发送到”字段中指定该通道。

Alert_notification (opens in a new tab)

指定通知渠道。

如果警报成功创建并触发,则将收到下图所示的通知。

Notification_message (opens in a new tab)

警报已创建并触发。

要删除警报,请转到“警报”面板并单击删除按钮。

Delete_alert (opens in a new tab)

删除警报。

下一步是什么