Root Cause Analysis
Task 4.1: Assist in a root cause analysis
Root cause analysis là critical cho troubleshooting, đặc biệt với distributed services.
Quy trình RCA
- Monitor KPIs - Theo dõi key performance indicators để đảm bảo resources hoạt động tốt
- Identify Components - Xác định components nào ảnh hưởng performance hoặc efficiency
- Build Alarms - Tạo alarms và notifications để proactively và automatically xử lý performance issues
- Incident Response - Xác định metrics nào hữu ích trong việc identify root cause
- Add Visibility - Tạo dashboards để tăng visibility vào performance
AWS Services cho RCA
- AWS X-Ray - Debug distributed applications, understand underlying services performance, identify root cause
API Endpoints Monitoring
- CloudWatch Synthetics - Monitor API endpoints
End-to-End View
- CloudWatch ServiceLens - End-to-end view của application
Log Analytics
- CloudWatch Logs Insights - Search và analyze logs
- Amazon OpenSearch - Advanced log analytics
- Amazon Athena - Query logs trong S3
- Amazon Kinesis - Real-time log analysis
Skills 4.1.1 → 4.1.7
Debug code, interpret metrics/logs/traces, query logs, custom metrics (EMF), dashboards, deployment failures.