实现基于 Grafana Loki 的日志报警

20230306121440b2a0fc172949e58bb2226453550b87a7bf1d1e708 ,对于生产环境以及一个有追求的运维人员来说，哪怕是毫秒级别的宕机也是不能容忍的。对基础设施及应用进行适当的日志记录和监控非常有助于解决问题，还可以帮助优化成本和资源，以及帮助检测以后可能会发生的一些问题。前面我们学习使用了 Prometheus 来进行监控报警，但是如果我们使用 Loki 收集日志是否可以根据采集的日志来进行报警呢？答案是肯定的，而且有两种方式可以来实现：Promtail 中的 metrics 阶段和 Loki 的 ruler 组件。,比如现在我们有一个如下所示的 nginx 应用用于 Loki 日志报警：,为方便测试，我们这里使用 NodePort 类型的服务来暴露应用，直接安装即可：,我们可以通过如下命令来来模拟每隔10s访问 Nginx 应用：,前面我们提到在 Promtail 中通过一系列 Pipeline 来处理日志，其中就包括一个 metrics 的阶段，可以根据我们的需求来增加一个监控指标，这就是我们需要实现的基于日志的监控报警的核心点，通过结构化日志，增加监控指标，然后使用 Prometheus 结合 Alertmanager 完成之前我们非常熟悉的监控报警。,首先我们需要安装 Prometheus 与 Alertmanager，可以手动安装，也可以使用 Prometheus Operator 的方式，可以参考监控报警章节相关内容，比如这里我们选择使用 Prometheus Operator 的方式。,前面我们介绍了几种 Loki 的部署方式，这里我们就保留上节微服务模式的 Loki 集群，接下来我们需要重新配置 Promtail，为其添加一个 metrics 处理阶段，使用如下所示的 values 文件重新安装。,上面最重要的部分就是为 Promtail 添加了 pipelineStages 配置，用于对日志行进行转换，在这里我们添加了一个 match 的阶段，会去匹配具有 app=nginx 这样的日志流数据，然后下一个阶段是利用正则表达式过滤出包含 GET 关键字的日志行。,在 metrics 指标阶段，我们定义了一个 nginx_hits 的指标，Promtail 通过其 /metrics 端点暴露这个自定义的指标数据。这里我们定义的是一个 Counter 类型的指标，当从 regex 阶段匹配上后，这个计数器就会递增。,为了在 Prometheus 中能够这个指标，我们通过 promtail.serviceMonitor.enable=true 开启了一个 ServiceMonitor。接下来重新更新 Loki 应用，使用如下所示的命令即可：,更新完成后会创建一个 ServiceMonitor 对象用于发现 Promtail 的指标数据：,如果你使用的 Prometheus-Operator 默认不能发现 logging 命名空间下面的数据，则需要创建如下所示的一个 Role 权限：,正常在 Prometheus 里面就可以看到 Promtail 的抓取目标了：, 20230306121442f6f4e9567a32f9e9789167a3ea07b9020909b0251 ,如果你使用的是 Prometheus Operator 自带的 Grafana，则需要手动添加上 Loki 的数据源，前面微服务模式中我们已经在 Grafana 中配置了 Loki 的数据源，现在当我们访问测试应用的时候，在 Loki 中是可以查看到日志数据的：, 20230306121442d1a75f063fd97530ea210834e70fdd294f9e53741 ,而且现在在 Prometheus 中还可以查询到我们在 Promtail 中添加的 metrics 指标数据：, 20230306121458f5391168319cf13eb8f5770d835a280382c328704 ,因为现在已经有监控指标了，所以我们就可以根据需求来创建报警规则了，我们这里使用的 Prometheus Operator，所以可以直接创建一个 PrometheusRule 资源对象即可：,这里我们配置了名为 nginx_hits 的报警规则，这些规则在同一个分组中，每隔一定的时间间隔依次执行。触发报警的阈值通过 expr 表达式进行配置。我们这里表示的是1分钟之内新增的总和是否大于2，当 expor 表达式的条件持续了2分钟时间后，报警就会真正被触发，报警真正被触发之前会保持为 Pending 状态。, 20230306121444a43506a294704e715cf04312b49c5266359929737 ,然后具体想要把报警发送到什么地方去，可以根据标签去配置 receiver，比如可以通过 WebHook 来接收。我们在 AlertManager 中也是可以看到接收到的报警事件的。, 20230306121445a6c25b8982141c10fbf848b569cf09226409bd607 ,上面的方式虽然可以实现我们的日志报警功能，但是还是不够直接，需要通过 Promtail 去进行处理，那么我们能否直接通过 Loki 来实现报警功能呢？其实在 Loki2.0 版本就提供了报警功能，其中有一个 Ruler 组件可以持续查询一个 rules 规则，并将超过阈值的事件推送给 AlertManager 或者其他 Webhook 服务，这也就是 Loki 自带的报警功能了，而且是兼容 AlertManager 的。,首先我们需要开启 Loki Ruler 组件，更新 loki-distributed 安装的 Values 文件，在前面微服务模式的基础上增加 ruler 组件配置：,我们首先通过 loki.structuredConfig.ruler 对 Ruler 组件进行配置，比如指定 Alertmanager 的地址，规则存储方式等，然后通过 ruler 属性配置了组件的相关信息以及报警规则，重新使用上面的 values 文件安装 Loki：,Loki 的 rulers 规则和结构与 Prometheus 是完全兼容，唯一的区别在于查询语句（LogQL）不同，在 Loki 中我们用 LogQL 来查询日志，一个典型的 rules 配置文件如下所示：,比如我们这里配置的规则 sum(rate({app="nginx"} |= "error" [1m])) by (job) / sum(rate({app="nginx"}[1m])) by (job) > 0.01 表示通过日志查到 nginx 日志的错误率大于1%就触发告警，同样重新使用上面的 values 文件更新 Loki：, 20230306121459587898301b4645ac79b683793462c10426880b575 ,更新完成后我们查看 Ruler 组件的日志可以看到一些关于上面我们配置的报警规则的信息：,同样在 1m 之内如果持续超过阈值，则会真正触发报警规则，触发后我们在 Alertmanager 也可以看到对应的报警信息了：, 20230306121446b494f9843fc5cf1716093432600ac6ddef3091189 ,到这里我们就完成了使用 Loki 基于日志的监控报警。