AWS 노트

DataWarehouse와 DateLake의 차이

Jonchann 2020. 4. 15. 16:15

데이터를 격납하는 방식

  • 데이터웨어하우스도 데이터레이크도 모든 데이터를 저장할 수 있음
    • 차이점1: 데이터웨어하우스는 구조적 데이터를 격납하고 데이터레이크는 비구조적 데이터와 구조적 데이터 모두 격납 가능하다
    • 차이점2: 데이터웨어하우스는 raw-data를 격납하기 위해서 ELT(추출->변형->적재) 프로세스를 거쳐 통일된 형태의 데이터로 격납하지만 데이터레이크는 바로 raw-data를 격납한다

 

데이터를 분석하는 방식

  • 데이터레이크는 raw-data그대로 저장하기 때문에 분석할 때 필요한 형태로 가공해 분석 툴로 데이터를 보낸다
    • 그 데이터만을 위한(ad-hoc) 분석이 가능
    • 대신 카탈로그라는 기능이 필요함: 어떤 데이터가 어디에 저장이 되어 있는지 알 수 있도록
  • 데이터웨어하우스는 그 자체로 분석까지 가능하다

 

AWS에서의 데이터레이크(S3)와 카탈로그(Glue), 데이터웨어하우스(Redshift)

  • BI(쿼리를 통해 정보를 얻는 방식)툴을 이용해 분석을 진행하고자 한다면 S3의 데이터를 Glue를 통해 Redshift로 보낼 수 있다
  • Glue는 ETL도 가능하다
  • Redshift는 데이터웨어하우스용 DB그 외에도
  • 비정형 데이터 분석에는 EMR(Elastic MapReduce)
  • ad-hoc 쿼리는 Athena
  • 시각화 하려면 QuickSight
  • 머신러닝을 이용하려면 SageMaker

 

데이터레이크는 언제 필요할까

  • 모든 raw-data를 한 곳에 두고 빠르게 분석하고 싶을 때

 

참고한 사이트

데이터 창고(DW)는 잊어라…데이터 호수를 맞이하라

Amazon S3 및 AWS Glue를 이용한 데이터 레이크 구축하기