개요이전 글을 통해 서버와 Nginx, DB의 메트릭을 모두 수집하고 대시보드로 시각화하여 개발자가 모니터링 할 수 있도록 시스템을 구성하였다. 하지만 장애를 대비하기 위해서 대시보드만 볼 수는 없는 노릇이다. 컴포넌트의 이상이 있거나 다운이 될 경우, 슬랙으로 알림이 오도록 시스템을 보완해보자. AlertManager란AlertManager를 추가하여 알림 시스템을 구성할 것이다. 우리는 프로메테우스를 통해 특정 상황에 대한 알림이 발생하도록 규칙을 설정할 것이다. 프로메테우스가 메트릭을 수집하고 규칙을 평가해서 알림을 발생시킨다면, AlertManager는 해당 규칙을 누구에게 어떻게 보낼지 라우팅한다. 슬랙 웹훅 설정슬랙의 webhook은 해당 블로그 글이 정리가 잘 되어있어서 참고하였다. 슬랙..
개요이전 글에서는 Prometheus & Grafana를 통해서 Spring 서버 어플리케이션의 메트릭을 수집하고 대시보드를 통해 조회할 수 있도록 시스템을 구성하였다. 이제 더 나아가 DB와 프록시 서버의 메트릭을 수집하고 모니터링 할 수 있도록 추가 구성해보자 Exporter란Exporter에 대해서 간단하게 알아보자.Exporter는 프로메테우스가 직접 메트릭을 수집할 수 없는 시스템의 메트릭을 수집하여 프로메테우스가 읽을 수 있는 형식으로 변환하고 노출해주는 에이전트이다.각 시스템에서는 고유하게 메트릭을 내려주는데, 시스템에 맞는 Exporter가 메트릭을 조회하고 프로메테우스에 형식에 맞게 변환하여 엔드포인트로 제공해준다. 프로메테우스에서는 Exporter에서 제공하는 엔드포인트를 통해 알맞게..
개요회사에 합류하여 곧장 어드민 페이지와 모니터링 시스템 구축 업무를 맡게 되었다. 서비스가 이제 막 출시된 상태에서 운영을 위해서는 두 시스템 모두 중요하며, 특별히 모니터링 시스템을 통해 서버가 여러가지 방면으로 이상은 없는지 확인할 수 있고, 큰 일이 발생하기 전 예방할 수 있다. 이번 글에서는 서버 메트릭 모니터링 시스템을 구축하는 과정을 공유해보려 한다. 메트릭이란?메트릭이란 무언가를 측정하기 위한 기준이나 지표를 말한다. 그렇다면 소프트웨어에서 메트릭은 상태를 나타내는 수치를 말하며, 예로 CPU 사용률이나 서버 응답 평균 시간, 에러 발생 횟수 등이 있을 것이다.메트릭을 실시간으로 수집함으로써, 서버의 상태를 체크하고 장애 시 대응 혹은 예방할 수 있을 것이다. 목표현재 서버는 이중화되어..