Microsoft

[Microsoft Azure] Azure의 데이터 엔지니어링 소개

truthyun 2024. 11. 4. 13:17
728x90
반응형

 

자료 원문

 

Introduction to data engineering on Azure - Training

This module describes how Microsoft Azure provides a comprehensive platform for data engineering.

learn.microsoft.com

 

데이터 엔지니어링

 

데이터 유형

 

구조적

  • 주로 관계형 데이터베이스와 같은 테이블 기반 원본시스템 또는 CSV파일과 같은 플랫 파일에서 가져온다.
  • 행과 열이 파일 전체에서 일관되게 정렬 됨

 

반 구조적

  • 원본 시스템에 로드하기 전에 평면화해야 할 수 있다.
  • 평면화할 때 이 데이터는 테이블 구조에 깔끔하게 맞출 필요가 없다.
  • ex. JSON

 

비 구조적

  • 표준 관계형 모델에 부합되지 않는 key-value로 저장된 데이터가 포함
  • ex. PDF, 워드 프로세서 문서 및 이미지 등

 

데이터 작업

Data integration

  • 여러 시스템에서 안전하고 신뢰할 수 있는 데이터 액세스가 가능하도록 운영 및 분석 서비스와 데이터 원본간 링크를 설정하는 작업 포함

 

Data Transformation

  • 운영 데이터는 일반적으로 ETL프로세스의 일부로서 분석에 적합한 구조 및 형식으로 변환되어야 한다.
  • 데이터를 Data Lake로 수집한 다음, 빅데이터 처리기술을 적용하여 데이터를 변환하는데 사용
  • 사용된 접근 방식에 관계없이 데이터는 다운스트림 분석 요구사항을 지원할 준비가 되어있다.

 

Data consolidation

  • 분석 및 보고를 지원하기 위해 여러 데이터 원본에서 추출된 데이터를 일관된 구조로 결합하는 프로세스
  • 일반적으로 운영 시스템의 데이터는 Data Lake 또는 DataWarehouse와 같은 분석 저장소에서 추출, 변환 및 로드

 

 

중요한 데이터 엔지니어링 개념

운영 및 분석 데이터

  • 운영 데이터: 일반적으로 애플리케이션이 관계형 또는 비관계형 데이터베이스에서 생성 및 저장하는 트랜잭션 데이터
  •  
  • 분석 데이터: 일반적으로 데이터 웨어하우스에서 분석 및 보고에 최적화된 데이터

 

 

스트리밍 데이터

  • 일반적으로 특정 이벤트와 관련된 데이터 값을 실시가능로 생성하는 영구 데이터 원본
  • ex. IoT(사물 인터넷)디바이스 및 소셜 미디어 피드
  • 일반적으로 실시간 데이터 스트림을 캡처하고 분석 데이터 시스템에 수집하여 실시간 데이터를 일괄 처리로 처리되는 다른 애플리케이션 데이터와 결합하는 솔루션 구현

 

 

Data Pipline

  • 데이터를 전송하고 변환하는 활동을 오케스트레이션하는데 사용
  • 엔지니어가 일정에 따라 또는 이벤트에 대한 응답으로 트리거될 수 있는 반복 가능한 ETL솔루션을 구현하는 기본 방법

 

Data Lake

  • 기본 원시 형식으로 대량의 데이터를 보유하고 있는 스토리지 리포지토리
  • 대량의 데이터로 스케일링하는 데 최적화
  • 데이터는 일반적으로 여러 소스에서 오며 구조화, 반 조화 또는 구조화되지 않을 수 있음.

 

Data Warehouse

  • 하나 이상의 개별 원본에서 가져온 통합된 데이터의 중앙 리포지토리
  • 분석 쿼리에 대한 성능을 최적화하는 스키마로 구성된 관계형 테이블에 현재 및 기록 데이터를 저장
  • 관계형 데이터 웨어하우스를 디자인 및 구현하고, 테이블에 대한 정기적인 데이터 로드 관리

 

Apache Spark

  • 메모리 내 처리 및 분산 파일 스토리지를 활용하는 병렬 처리 프레임워크
  • 빅데이터 시나리오를 위한 일반적은 OSS(Open source software)도구

 

Microsoft Azure의 데이터 엔지니어링

  • 운영 데이터는 애플리케이션 및 디바이스에서 생성되고 Azure SQL Database, Azure Cosmos DB, Microsoft Dataverse 등의 Azure 데이터 스토리지 서비스에 저장
  • 스트리밍 데이터는 Azure Event Hubs 등의 이벤트 브로커 서비스에서 캡처된다.
  • 운영 데이터는 분석 저장소로 캡처, 수집, 통합되어 보고서와 대시보드에서 모델링 및 시각화할 수 있다.
728x90
반응형