본문 바로가기
IT/데이터 이론, 분석, 시각화

[AWS] 데이터 아키텍처 (RDS, S3, GLUE, ATHENA, REDSHIFT)

by marketinkerbell 2022. 3. 8.
반응형

 

 

 

내가 보려고 정리하는

우리 회사 AWS 데이터 아키텍처 

 

 

AWS 데이터 아키텍처 (회사에서 현재 이렇게 사용중)

 

 

사업 본부별 다른 DBMS 쓰다가 최근에 데이터 통합을 추진하면서,

AWS 서비스를 사용한 데이터웨어하우스를 구축하는 중이다. 

 

(AWS는 단순한 웹페이지가 아니라 클라우드 컴퓨팅 환경이다.)

 

 

위의 아키텍처에서 필요한대로 점점 더 추가될 수 있다. 

 

 

하나씩 기능을 살펴보자 

 

 

 

RDS (Relational Database Service)   

Category : DB 

 

관리형 관계형 데이터베이스 

MySQL, PostgreSQL, Oracle Database, SQL Server,MariaDB, Amazon Aurora 중에 선택해서 데이터베이스를 생성할 수 있다.

클라우드에서 관계형 데이터베이스를 간편하게 설정, 운영 및 확장 가능

 

 

 

S3 (Simple Storage Service)

Category : 스토리지

 

클라우드상의 확장 가능한 스토리지 (저장소)

BigData 기반 데이터 저장소 (Data Lake)

어디에서나 원하는 양의 데이터를 저장하고 검색, 삭제 할 수 있도록 구축된 객체 스토리지

구글 드라이브와 비슷

 

 

 

Glue

Category : 데이터 이동

 

데이터 준비 및 로드 (ETL) 

분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL (추출, 변환, 로드) 서비스

Extract : 데이터 가져오는 것, 추출

Transform : 분석을 위한 형태로 데이터 변환

Load : 변형이 된 데이터를 새로운 테이블에 저장, 적재

 

 

 

Redshift

Category : DB, 분석

 

빠르고 간단하며 비용 효과적인 Data Warehouse
클라우드 데이터 웨어하우스 DB

 

 

 

Athena

Category : 분석

 

S3에 있는 테이터셋을 가지고 표준 SQL을 사용하여 바로 분석할 수 있는 대화형 쿼리 서비스

쿼리문 실행에 따른 과금 방식

 

 

 

QuickSight

Category : BI 및 시각화 도구

 

통제된 데이터 공유를 위해 여러 소스의 데이터를 결합해 복합적인 데이터 모델 생성

데이터 중심 결정을 내릴 수 있도록 다양한 대시보드, 시각화 지원

 

 

 


 

<용어 설명>

 

 

데이터베이스

- 데이터를 캡쳐하고 저장하는데 사용. 트랜잭션을 처리하는 목적으로 사용

 

 

데이터레이크 (Data Lake)

- 모든 가공되지 않은 다양한 데이터를 한 곳에 모아둔 저장소

  다양한 영역의 raw 데이터를 (빅데이터) 한 곳에 모아서 관리

 

 

데이터웨어하우스 DW (DataWarehouse)  

- 데이터분석을 위해 특별히 설계된 구조

   수집된 대규모의 로우데이터 (데이터레이크) 에서  분석에 필요한 데이터를 수정, 가공해서 저장한 공간

 

 

데이터마트

- 특정 팀 or 사업단위에서 필요로 하는 데이터 요약본 

  규모가 작고 사용자의 요구를 충족시키는 데이터 요약본

 

 

 

 

 


 

 

데이터 통합하면 무엇이 좋길래 이렇게 하나 ? 

 

- 분산되어 있던 데이터들을 모아 통합 관리하기에 데이터의 품질이 높아짐 (일관성, 정확성)

- 데이터 사용이 용이해져서 활용도 높아짐

- 데이터를 기반으로한 의사 결정 가능

 

 

 

 


 

 

개념 이해하기 쉽게 그려본 데이터 아키텍처 

 

 

 

 

 

 

 

 

 

댓글