AWS Certified Generative AI Developer - Professional (AIP-C01) > Chi tiết Content Domains > 3.4 Domain 4: Optimization (12%) > Task 4.2: Performance Optimization

Task 4.2: Performance Optimization

Task 4.2: Optimize application performance

Skill 4.2.1: Latency optimization

Kiến thức cần nắm:

Pre-computation cho predictable queries
Latency-optimized Bedrock models
Parallel requests cho complex workflows
Response streaming
Performance benchmarking

Giải thích chi tiết:

Latency Reduction Techniques:

Technique	Giảm latency	Trade-off
Streaming	Perceived latency giảm 80%+	Complexity tăng
Smaller models	2-5x faster	Quality có thể giảm
Pre-computation	Near-zero cho cached	Storage cost
Parallel requests	Tổng time = max(individual)	Token cost tăng
Prompt caching	Giảm TTFT	Cache management

TTFT (Time to First Token) là metric quan trọng cho user experience:

Streaming cho phép user thấy response ngay từ token đầu tiên
Bedrock latency-optimized models giảm TTFT

Parallel Processing Pattern:

Complex Query
    ├── Sub-query 1 → Model A → Result 1
    ├── Sub-query 2 → Model B → Result 2  (parallel)
    └── Sub-query 3 → Model C → Result 3
                                    ↓
                        Aggregate Results → Final Response

Skill 4.2.2: Retrieval performance

Kiến thức cần nắm:

Index optimization cho vector databases
Query preprocessing
Hybrid search với custom scoring

Giải thích chi tiết:

Vector Search Optimization:

Optimization	Mô tả
Index type	HNSW cho speed, IVF cho memory efficiency
Sharding	Distribute data across nodes
Dimension reduction	Giảm embedding dimensions
Hybrid search	Combine keyword + vector search
Re-ranking	Bedrock reranker models cho better relevance

Hybrid Search:

Query → Keyword Search (BM25) → Top 20 results
    ↓
Query → Vector Search (semantic) → Top 20 results
    ↓
Merge + Re-rank → Top 5 final results

Skill 4.2.3: Throughput optimization

Kiến thức cần nắm:

Token processing optimization
Batch inference strategies
Concurrent model invocation management

Skill 4.2.4: FM parameter tuning

Kiến thức cần nắm:

Model-specific parameter configurations
A/B testing cho improvements
Temperature, top-k, top-p selection

Temperature controls randomness: 0 = deterministic, 1 = creative. Top-k limits vocabulary choices. Top-p (nucleus sampling) limits cumulative probability. Cho tasks cần accuracy (extraction, classification), dùng temperature thấp. Cho creative tasks, dùng temperature cao hơn.

Parameter Guidelines:

Use Case	Temperature	Top-p	Max Tokens
Data extraction	0	0.1	Vừa đủ
Classification	0	0.1	Ngắn
Summarization	0.3	0.5	Trung bình
Creative writing	0.7-1.0	0.9	Dài
Code generation	0.2	0.3	Dài
Chatbot	0.5	0.7	Trung bình

Skill 4.2.5: Resource allocation

Kiến thức cần nắm:

Capacity planning cho token processing
Utilization monitoring
Auto-scaling cho GenAI traffic patterns

Skill 4.2.6: System performance optimization

Kiến thức cần nắm:

API call profiling
Vector database query optimization
Latency reduction cho LLM inference
Efficient service communication patterns

Giải thích chi tiết:

End-to-End Optimization Checklist:

Profile API calls với X-Ray
Identify bottlenecks (FM latency vs retrieval vs processing)
Optimize retrieval (index tuning, caching)
Optimize FM calls (model selection, parameter tuning)
Optimize post-processing (parallel, async)
Monitor và iterate

Task 4.2: Performance Optimization

Task 4.2: Optimize application performance

Skill 4.2.1: Latency optimization

Skill 4.2.2: Retrieval performance

Skill 4.2.3: Throughput optimization

Skill 4.2.4: FM parameter tuning

Skill 4.2.5: Resource allocation

Skill 4.2.6: System performance optimization

Tài liệu tham khảo