📘 AWS 모니터링 기초
🧭 전체 그림
[행위 기록]
CloudTrail
↓
[로그 수집]
CloudWatch Logs
↓
[지표화]
Metric / Custom Metric / Metric Filter
↓
[판단]
CloudWatch Alarm
↓
[대응]
SNS / Lambda / Auto Scaling
↓
[가시화]
Dashboard / Insights
1️. Amazon CloudWatch 기초
CloudWatch의 역할
- AWS 리소스와 애플리케이션의 상태(State) 를 관찰하는 서비스
- “지금 시스템이 정상인가?”에 답하기 위한 도구
수집 대상
- Metric (지표)
- Log (로그)
- Event (이벤트)
핵심 기능
- 지표 수집 및 시각화
- 로그 수집 및 분석
- 경보(Alarm) 생성
- 대시보드 제공
- 자동화 트리거 역할
2️. CloudWatch 지표 (Metric)
Metric이란?
- 시간 순서 기반 데이터 집합
- CPU, 네트워크, 요청 수, 에러 수 등
종류
- 기본 지표 (AWS 서비스 제공)
- 커스텀 지표 (사용자 정의)
핵심 구성 요소
- Namespace: 지표의 소속
- Metric Name: 무엇을 측정하는가
- Dimension: 어떤 리소스인가
- Period / Resolution: 수집 주기
- Unit: %, byte, count 등
중요 포인트
- Metric 없이는 Alarm도 없다
- 운영 모니터링의 확장성은 Custom Metric에 달려 있음
3️. CloudWatch 로그 (Logs)
로그의 역할
- “왜 이런 상태가 되었는가?”를 설명하는 근거 데이터
구성 요소
- Log Group: 로그 묶음 단위
- Log Stream: 로그 발생 주체
- Log Event: 실제 로그 한 줄
Logs Insights
- SQL 기반 로그 분석
- 여러 로그 그룹 동시 분석
- 실시간 분석 가능
Metric Filter
- 로그를 지표로 변환
- 예: 404 에러 로그 → 에러 횟수 지표
4️. CloudWatch 경보 (Alarm)
Alarm이란?
- 지표를 기준으로 상태를 판단하고
- 조건 충족 시 자동 행동 수행
Alarm 상태
- OK
- ALARM
- INSUFFICIENT_DATA
Alarm이 하는 일
- 알림 전송 (SNS)
- 자동화 실행 (Lambda, Auto Scaling, EC2 제어)
핵심 포인트
- Alarm은 Metric의 해석기
- Threshold 설계가 가장 중요
5️. 지표 수집 & 알람 실습
실습 핵심 흐름
- EC2 로그 수집
- CloudWatch Agent로 메모리/디스크 수집
- 로그 → Metric Filter
- Metric → Alarm
- Alarm → SNS 알림
중요한 개념 연결
- 기본 지표만으로는 운영 불가
- 로그 기반 지표 + 커스텀 지표가 실무 핵심
6️. CloudWatch 기타 기능
Synthetics (Canary)
- 사용자 행동 시뮬레이션
- “사용자 입장에서 서비스가 살아있는가?”
Insights 계열
- Logs Insights: 로그 분석
- Container Insights: ECS/EKS
- Lambda Insights: 함수 성능
- Contributor Insights: 상위 기여자 분석
기타
- Dashboard
- Metric Stream
- Anomaly Detection
- EventBridge 연계
7️. CloudWatch 대시보드 실습
Dashboard의 역할
설계 원칙
- 핵심 지표만 노출
- 의미 없는 수치 제거
- 장애 징후가 바로 보이게
8️. AWS CloudTrail
CloudTrail의 역할
- AWS 계정 내 모든 행위(Event) 기록
- “누가 무엇을 했는가?”
기록 대상
- Console
- CLI
- SDK
- 서비스 간 API 호출
CloudWatch와 차이
- CloudWatch: 상태(State)
- CloudTrail: 행위(Event)
보안 활용
- IAM 변경 추적
- 보안 그룹 변경 감시
- Root 계정 사용 감지
🔁 CloudWatch vs CloudTrail 한 줄 정리
CloudWatch : 지금 시스템이 어떤 상태인가?
CloudTrail : 누가 어떤 행동을 했는가?
🎯 최종 정리
- CloudWatch는 운영 안정성의 중심
- CloudTrail은 보안과 감사의 중심
- 로그 → 지표 → 알람 → 자동화 흐름을 이해해야 진짜 실무
- Dashboard는 결과물이지 시작점이 아니다