Task 1.3: Data Validation & Processing

Task 1.3: Triển khai data validation và processing pipelines

Skill 1.3.1: Data validation workflows

Đảm bảo data đạt quality standards cho FM consumption.

Kiến thức cần nắm:

  • AWS Glue Data Quality — Automated data quality checks
  • SageMaker Data Wrangler — Data preparation và transformation
  • Custom Lambda functions cho validation logic
  • Amazon CloudWatch metrics cho data quality monitoring

Skill 1.3.2: Xử lý complex data types

Xử lý text, image, audio, và tabular data cho FM consumption.

Kiến thức cần nắm:

  • Amazon Bedrock multimodal models (Claude 3 hỗ trợ text + image)
  • SageMaker Processing — Batch data processing
  • Amazon Transcribe — Speech-to-text cho audio data
  • Multimodal pipeline architectures

Skill 1.3.3: Format input data cho FM inference

Kiến thức cần nắm:

  • JSON formatting cho Amazon Bedrock API requests
  • Structured data preparation cho SageMaker AI endpoints
  • Conversation formatting cho dialog-based applications (messages API format)
{
  "messages": [
    {"role": "user", "content": "What is Amazon Bedrock?"},
    {"role": "assistant", "content": "Amazon Bedrock is..."}
  ],
  "max_tokens": 1024,
  "temperature": 0.7
}

Skill 1.3.4: Nâng cao chất lượng input data

Kiến thức cần nắm:

  • Amazon Bedrock để reformat text
  • Amazon Comprehend để extract entities
  • Lambda functions để normalize data
  • Data cleaning và preprocessing techniques

Tài liệu tham khảo