Task 1.3: Data Validation & Processing
Task 1.3: Triển khai data validation và processing pipelines
Skill 1.3.1: Data validation workflows
Đảm bảo data đạt quality standards cho FM consumption.
Kiến thức cần nắm:
- AWS Glue Data Quality — Automated data quality checks
- SageMaker Data Wrangler — Data preparation và transformation
- Custom Lambda functions cho validation logic
- Amazon CloudWatch metrics cho data quality monitoring
Skill 1.3.2: Xử lý complex data types
Xử lý text, image, audio, và tabular data cho FM consumption.
Kiến thức cần nắm:
- Amazon Bedrock multimodal models (Claude 3 hỗ trợ text + image)
- SageMaker Processing — Batch data processing
- Amazon Transcribe — Speech-to-text cho audio data
- Multimodal pipeline architectures
Kiến thức cần nắm:
- JSON formatting cho Amazon Bedrock API requests
- Structured data preparation cho SageMaker AI endpoints
- Conversation formatting cho dialog-based applications (messages API format)
{
"messages": [
{"role": "user", "content": "What is Amazon Bedrock?"},
{"role": "assistant", "content": "Amazon Bedrock is..."}
],
"max_tokens": 1024,
"temperature": 0.7
}
Kiến thức cần nắm:
- Amazon Bedrock để reformat text
- Amazon Comprehend để extract entities
- Lambda functions để normalize data
- Data cleaning và preprocessing techniques
Tài liệu tham khảo