데이터를 격납하는 방식
- 데이터웨어하우스도 데이터레이크도 모든 데이터를 저장할 수 있음
- 차이점1: 데이터웨어하우스는 구조적 데이터를 격납하고 데이터레이크는 비구조적 데이터와 구조적 데이터 모두 격납 가능하다
- 차이점2: 데이터웨어하우스는 raw-data를 격납하기 위해서 ELT(추출->변형->적재) 프로세스를 거쳐 통일된 형태의 데이터로 격납하지만 데이터레이크는 바로 raw-data를 격납한다
데이터를 분석하는 방식
- 데이터레이크는 raw-data그대로 저장하기 때문에 분석할 때 필요한 형태로 가공해 분석 툴로 데이터를 보낸다
- 그 데이터만을 위한(ad-hoc) 분석이 가능
- 대신
카탈로그
라는 기능이 필요함: 어떤 데이터가 어디에 저장이 되어 있는지 알 수 있도록
- 데이터웨어하우스는 그 자체로 분석까지 가능하다
AWS에서의 데이터레이크(S3)와 카탈로그(Glue), 데이터웨어하우스(Redshift)
- BI(쿼리를 통해 정보를 얻는 방식)툴을 이용해 분석을 진행하고자 한다면 S3의 데이터를 Glue를 통해 Redshift로 보낼 수 있다
- Glue는 ETL도 가능하다
- Redshift는 데이터웨어하우스용 DB그 외에도
- 비정형 데이터 분석에는 EMR(Elastic MapReduce)
- ad-hoc 쿼리는 Athena
- 시각화 하려면 QuickSight
- 머신러닝을 이용하려면 SageMaker
데이터레이크는 언제 필요할까
- 모든 raw-data를 한 곳에 두고 빠르게 분석하고 싶을 때
참고한 사이트
데이터 창고(DW)는 잊어라…데이터 호수를 맞이하라
Amazon S3 및 AWS Glue를 이용한 데이터 레이크 구축하기