본문 바로가기
1. SW개발 & IT트렌드

데이터 아키텍처의 발전 - gemini 버전

by soosun 2026. 6. 22.

데이터 분야의 역사는 단순한 ‘저장’에서 시작해 ‘대용량 분석’, 그리고 현재의 ‘실시간 지능형 통합’ 단계로 진화해 왔습니다. 컴퓨팅 파워의 발전과 인터넷의 보급, AI의 등장에 맞추어 변해온 데이터 생태계의 패러다임 변화를 연도별 타임라인과 상세 설명으로 정리해 드릴게요.

 

 

📅 데이터 분석 기술의 연도별 진화 타임라인

 
ㅇ 1970년대: 데이터베이스의 탄생
1970 ~ 1979

에드거 F. 커드(Edgar F. Codd) 박사의 논문으로 **관계형 데이터베이스(RDBMS)**와 SQL의 개념이 정립되었습니다. 데이터를 표(Table) 형태로 정리해 중복을 최소화하고 안전하게 저장하는 기술의 시초입니다.

 
ㅇ 1980~90년대: 데이터 웨어하우스(DW)와 BI의 등장
1980 ~ 1999

기업 내 데이터가 쌓이면서 '서비스 운영용' 데이터베이스와 '분석용' 데이터베이스를 분리하기 시작했습니다. 빌 인몬(Bill Inmon)과 랄프 킴볼(Ralph Kimball)에 의해 데이터 웨어하우스(DW) 개념이 정립되었고, 기업 경영진을 위한 비즈니스 인텔리전스(BI) 대시보드가 활성화되었습니다.

 
ㅇ 2000년대: 빅데이터의 서막과 오픈소스 하둡
2000 ~ 2009

구글, 야후 등 글로벌 웹 서비스의 폭발적인 성장으로 단일 서버로는 감당할 수 없는 초대형 데이터가 탄생했습니다. 2006년 오픈소스 분산 처리 시스템인 **하둡(Hadoop)**이 출시되면서 저렴한 서버 여러 대를 묶어 페타바이트(PB)급 데이터를 처리하는 '빅데이터' 시대가 열렸습니다.

 
ㅇ 2010년대: 클라우드 전환과 데이터 레이크(Data Lake)
2010 ~ 2019

기업들의 인프라가 AWS, Azure, GCP 등 클라우드로 빠르게 전환되었습니다. 정형 데이터뿐만 아니라 로그, 이미지, 영상 등 모든 원시 데이터를 저장하는 **데이터 레이크(Data Lake)**가 주류로 부상했고, 하둡보다 최대 100배 빠른 대용량 인메모리 연산 엔진인 **아파치 스파크(Apache Spark)**가 표준으로 자리 잡았습니다.

 
ㅇ 2020년대~현재: 데이터 레이크하우스와 AI 통합
2020 ~ 2026

데이터 웨어하우스와 데이터 레이크의 한계를 깨고 둘을 통합한 데이터 레이크하우스(Data Lakehouse) 아키텍처가 시장을 지배하고 있습니다. LLM(대형 언어 모델)과 생성형 AI의 폭발적 성장에 발맞추어, 이제 데이터 플랫폼은 단순 분석을 넘어 벡터 데이터베이스 지원 및 생성형 AI 학습 인프라의 핵심 축으로 동작합니다.

 

 

 

📊 패러다임별 핵심 인프라 및 기술 스택 비교

각 시대를 이끌었던 핵심 사상과 데이터의 특징, 대표적인 기술 스택을 비교하면 다음과 같습니다.

시대 구분 1980~1990년대 (DW 시대) 2000~2010년대 (빅데이터/레이크 시대) 2020년대~현재 (레이크하우스/AI 시대)
데이터 특징 정형 데이터 (텍스트, 숫자 위주) 대용량 반정형/비정형 데이터 (로그, 이미지 등) 정형 + 비정형 + 벡터 데이터(Embedding)
처리 아키텍처 중앙 집중형 고성능 서버 (Scale-up) 분산 컴퓨팅 클러스터 (Scale-out) 컴퓨팅과 스토리지의 완전 분리, 멀티 클라우드
주요 목표 과거 실적 마감 및 고정 보고서 작성 대용량 데이터 적재 및 머신러닝 모델 학습 실시간 데이터 스트리밍, 생성형 AI 및 LLM 연동
대표 기술 스택 Oracle, Teradata, IBM DB2, MS SQL Hadoop, Apache Spark, AWS S3, Hive Databricks, Snowflake, Apache Iceberg, Delta Lake

 

 

 

🔑 시대별 발전 배경 및 주요 특징 레슨

1. '신뢰성' 위주의 저장 (1980~1990s) 초기에는 기술적 한계로 데이터 저장 비용이 비쌌기 때문에, 철저히 정제되고 검증된 데이터만 규격에 맞춰 저장(Data Warehouse)했습니다. 데이터가 조금이라도 유실되거나 틀어지면 안 되는 회계, 정산 등에 최적화된 시기입니다.

2. '일단 다 저장하자' 확장성의 시기 (2000~2010s) 스마트폰과 웹 서비스 확산으로 데이터가 폭증하자, 스키마(틀)를 미리 맞추는 비용조차 아까워졌습니다. 오픈소스와 클라우드 덕분에 저장 비용이 비약적으로 저렴해지면서 "무슨 데이터든 일단 레이크(호수)에 던져두고 나중에 분석하자"는 데이터 레이크 사상이 지배했습니다.

3. '통합과 인공지능'의 시기 (2020s~현재) 막상 레이크에 다 던져두니 관리가 안 되어 데이터가 썩는 문제(Data Swamp)가 발생했습니다. 이에 따라 데이터 레이크의 유연함 위에 데이터 웨어하우스의 촘촘한 관리 기능(ACID 트랜잭션 등)을 얹은 레이크하우스가 탄생했습니다. 특히 최근에는 생성형 AI(LLM)에 필요한 비정형 데이터 지식 기반(RAG)을 매끄럽게 공급하는 것이 현재 데이터 플랫폼들의 최대 과제이자 진화 방향입니다.

댓글