Kiến thức cần nắm:
Giải thích chi tiết:
GenAI vs Traditional ML Evaluation:
| Aspect | Traditional ML | GenAI |
|---|---|---|
| Metrics | Accuracy, F1, AUC | Relevance, fluency, factuality |
| Ground truth | Clear labels | Subjective, multiple valid answers |
| Evaluation | Automated | Often requires human/LLM judge |
| Consistency | Deterministic | Stochastic (varies per run) |
Key Evaluation Metrics:
| Metric | Mô tả | Đo bằng |
|---|---|---|
| Relevance | Response liên quan đến query | LLM-as-Judge, human rating |
| Factual accuracy | Thông tin chính xác | RAG grounding check |
| Consistency | Responses nhất quán | Multiple runs comparison |
| Fluency | Ngôn ngữ tự nhiên, mạch lạc | BLEU, ROUGE, human rating |
| Harmfulness | Nội dung có hại | Safety classifiers |
| Helpfulness | Hữu ích cho user | Human rating |
Kiến thức cần nắm:
Exam Tip: Amazon Bedrock Model Evaluations cho phép đánh giá models trên các metrics như accuracy, robustness, toxicity. Đây là công cụ chính cho model evaluation trong kỳ thi.
Bedrock Model Evaluations:
A/B Testing Pattern:
Traffic → Router (50/50 split)
├── Model A → Response A → Collect metrics
└── Model B → Response B → Collect metrics
↓
Compare metrics → Select winner
Kiến thức cần nắm:
Giải thích chi tiết:
Feedback Collection:
Kiến thức cần nắm:
Giải thích chi tiết:
Quality Gate Pattern:
New Model/Prompt Version
↓
Run evaluation suite (golden dataset)
↓
Compare against baseline metrics
↓
Pass threshold? → Deploy
↓ No
Block deployment → Alert team
Kiến thức cần nắm:
LLM-as-a-Judge là kỹ thuật sử dụng một LLM mạnh (ví dụ Claude Sonnet) để đánh giá output của LLM khác. Đây là approach scalable hơn human evaluation và thường xuất hiện trong đề thi.
RAG Evaluation Dimensions:
| Dimension | Mô tả | Metric |
|---|---|---|
| Context relevance | Retrieved docs liên quan đến query | Precision@K |
| Context utilization | Model sử dụng context hiệu quả | Faithfulness score |
| Answer relevance | Response trả lời đúng câu hỏi | Relevance score |
| Answer correctness | Response chính xác factually | Accuracy score |
Kiến thức cần nắm:
Kiến thức cần nắm:
Agent Evaluation Metrics:
| Metric | Mô tả |
|---|---|
| Task completion rate | % tasks hoàn thành thành công |
| Steps to completion | Số bước agent cần để hoàn thành |
| Tool selection accuracy | Agent chọn đúng tool |
| Reasoning quality | Logic reasoning chính xác |
| Cost per task | Chi phí tokens cho mỗi task |
Kiến thức cần nắm:
Kiến thức cần nắm: