본문 바로가기
IT/데이터 이론, 분석, 시각화

데이터 프로세싱 파이프라인 : OLTP to OLAP with AWS RDS, S3, Glue, and Redshift

by marketinkerbell 2025. 1. 11.
반응형

 
 
 

 
현재 회사에서 데이터 프로세싱 파이프라인을 하기와 같이 사용 중에 있습니다.



RDS -> S3 -> GLUE -> Redshift


"RDS" : "Store real-time transactional data"
"S3" " :  "Store data as a Data Lake" 
"Glue" : "ETL: Extract, Transform, Load"
"Redshift" : "Analyze data with SQL queries"


RDS는 OLTP로 분류되는 서비스인데요,
OLTP (Online Transaction Processing)는 실시간으로 데이터베이스 트랜잭션(삽입, 업데이트, 삭제 등의 작업) 처리를 하는데 초점을 두고 있습니다.

분석용이 아닌 운영용 DB로써 실시간 데이터를 처리하고 저장하는 데 사용합니다. 주로 데이터베이스에서 INSERT, UPDATE, DELETE 작업을 처리합니다.
그렇기 때문에 빠른 응답 시간과 높은 동시성을 요구하고, 데이터베이스가 보통 정규화되어 있어 데이터 무결성을 보장해야합니다.

사용 예시:
은행 시스템(계좌 이체)
전자상거래 사이트(주문 관리)
애플리케이션 로그 저장


RDS는 실시간 데이터 트랜잭션에 적합하지만 대규모 데이터 분석에는 한계가 있어 분석용 DB로는 Redshift 같은 대규모 분석에 최적화 된 서비스를 따로 사용합니다.

Redshift는 OLAP로 분류되는 서비스인데요,
OLAP (Online Analytical Processing) 는
데이터를 분석하고 통찰력을 도출하는 데 초점을 두고 있는 서비스입니다. 대규모 데이터셋에서 복잡한 읽기(쿼리) 작업을 처리합니다. 데이터베이스가 보통 비정규화되어 있고 빠른 분석을 지원합니다.
데이터 집계, 트렌드 분석, 의사결정 지원에 많이 사용됩니다.

사용 예시:
BI 도구(비즈니스 인텔리전스)와 데이터 시각화
판매 보고서 분석
마케팅 캠페인 성과 분석

 


그럼 RDS 에서 Redshift로 바로 데이터를 넘기면 되지 중간에 S3와 GLUE는 뭐냐?🫨





S3는 저렴한 장기 스토리지와 데이터 레이크 역할을 합니다. 저렴하게! 데이터를 다양한 형식으로 저장하고 공유할 수 있는 저장소입니다. 원시데이터 등 분석에는 필요하지 않은 데이터들도 많이 포함 되어 있습니다.

Glue는 데이터 통합과 ETL(Extract, Transform, Load) 작업을 자동화하는 데 사용됩니다. Redshift로 데이터를 넘기기 전에 Glue를 활용하면 데이터를 전처리하고, 정제하며, 원하는 스키마로 변환하여 분석에 적합한 상태로 준비할 수 있습니다.



RDS -> S3 -> GLUE -> Redshift -> Quicksight
이 프로세스로 데이터를 보내어 최종 BI툴에서 데이터를 시각화해서 분석하고 있습니다.

운영용 데이터를 분석용 DB에 업데이트 하는 주기와 시간은 정해서 할 수 있고, 자주 보낼수록 돈이 많이듭니다 ㅎㅎ

댓글