📘 AWS 모니터링 기초


🧭 전체 그림

[행위 기록]
CloudTrail
   ↓
[로그 수집]
CloudWatch Logs
   ↓
[지표화]
Metric / Custom Metric / Metric Filter
   ↓
[판단]
CloudWatch Alarm
   ↓
[대응]
SNS / Lambda / Auto Scaling
   ↓
[가시화]
Dashboard / Insights

1️. Amazon CloudWatch 기초

CloudWatch의 역할

  • AWS 리소스와 애플리케이션의 상태(State) 를 관찰하는 서비스
  • “지금 시스템이 정상인가?”에 답하기 위한 도구

수집 대상

  • Metric (지표)
  • Log (로그)
  • Event (이벤트)

핵심 기능

  • 지표 수집 및 시각화
  • 로그 수집 및 분석
  • 경보(Alarm) 생성
  • 대시보드 제공
  • 자동화 트리거 역할

2️. CloudWatch 지표 (Metric)

Metric이란?

  • 시간 순서 기반 데이터 집합
  • CPU, 네트워크, 요청 수, 에러 수 등

종류

  • 기본 지표 (AWS 서비스 제공)
  • 커스텀 지표 (사용자 정의)

핵심 구성 요소

  • Namespace: 지표의 소속
  • Metric Name: 무엇을 측정하는가
  • Dimension: 어떤 리소스인가
  • Period / Resolution: 수집 주기
  • Unit: %, byte, count 등

중요 포인트

  • Metric 없이는 Alarm도 없다
  • 운영 모니터링의 확장성은 Custom Metric에 달려 있음

3️. CloudWatch 로그 (Logs)

로그의 역할

  • “왜 이런 상태가 되었는가?”를 설명하는 근거 데이터

구성 요소

  • Log Group: 로그 묶음 단위
  • Log Stream: 로그 발생 주체
  • Log Event: 실제 로그 한 줄

Logs Insights

  • SQL 기반 로그 분석
  • 여러 로그 그룹 동시 분석
  • 실시간 분석 가능

Metric Filter

  • 로그를 지표로 변환
  • 예: 404 에러 로그 → 에러 횟수 지표

4️. CloudWatch 경보 (Alarm)

Alarm이란?

  • 지표를 기준으로 상태를 판단하고
  • 조건 충족 시 자동 행동 수행

Alarm 상태

  • OK
  • ALARM
  • INSUFFICIENT_DATA

Alarm이 하는 일

  • 알림 전송 (SNS)
  • 자동화 실행 (Lambda, Auto Scaling, EC2 제어)

핵심 포인트

  • Alarm은 Metric의 해석기
  • Threshold 설계가 가장 중요

5️. 지표 수집 & 알람 실습

실습 핵심 흐름

  • EC2 로그 수집
  • CloudWatch Agent로 메모리/디스크 수집
  • 로그 → Metric Filter
  • Metric → Alarm
  • Alarm → SNS 알림

중요한 개념 연결

  • 기본 지표만으로는 운영 불가
  • 로그 기반 지표 + 커스텀 지표가 실무 핵심

6️. CloudWatch 기타 기능

Synthetics (Canary)

  • 사용자 행동 시뮬레이션
  • “사용자 입장에서 서비스가 살아있는가?”

Insights 계열

  • Logs Insights: 로그 분석
  • Container Insights: ECS/EKS
  • Lambda Insights: 함수 성능
  • Contributor Insights: 상위 기여자 분석

기타

  • Dashboard
  • Metric Stream
  • Anomaly Detection
  • EventBridge 연계

7️. CloudWatch 대시보드 실습

Dashboard의 역할

  • 운영 상태를 사람이 빠르게 이해하도록 시각화

Widget 종류

  • 그래프
  • 숫자
  • 로그 테이블
  • 텍스트

설계 원칙

  • 핵심 지표만 노출
  • 의미 없는 수치 제거
  • 장애 징후가 바로 보이게

8️. AWS CloudTrail

CloudTrail의 역할

  • AWS 계정 내 모든 행위(Event) 기록
  • “누가 무엇을 했는가?”

기록 대상

  • Console
  • CLI
  • SDK
  • 서비스 간 API 호출

CloudWatch와 차이

  • CloudWatch: 상태(State)
  • CloudTrail: 행위(Event)

보안 활용

  • IAM 변경 추적
  • 보안 그룹 변경 감시
  • Root 계정 사용 감지

🔁 CloudWatch vs CloudTrail 한 줄 정리

CloudWatch : 지금 시스템이 어떤 상태인가?
CloudTrail : 누가 어떤 행동을 했는가?

🎯 최종 정리

  • CloudWatch는 운영 안정성의 중심
  • CloudTrail은 보안과 감사의 중심
  • 로그 → 지표 → 알람 → 자동화 흐름을 이해해야 진짜 실무
  • Dashboard는 결과물이지 시작점이 아니다