목차
1. 개요
데이터브릭스는 2013년 아파치 스파크(Apache Spark)의 원조 제작자들이 설립한 미국 샌프란시스코 기반의 소프트웨어 기업입니다. 이 회사는 기업이 생성형 AI 및 기타 머신러닝 모델을 포함한 데이터와 AI를 구축, 확장 및 관리하는 데 도움이 되는 클라우드 기반 플랫폼을 제공합니다. 데이터브릭스의 핵심은 데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)의 기능을 결합한 ‘레이크하우스(Lakehouse)’ 아키텍처를 개척했다는 점입니다. 데이터 웨어하우스는 정형 데이터(예: 관계형 데이터베이스)를 저장하고 분석하는 데 최적화된 구조화된 저장소이며, 데이터 레이크는 정형, 반정형, 비정형 데이터를 원시 형태로 저장할 수 있는 유연한 저장소입니다. 레이크하우스 아키텍처는 이러한 두 가지 접근 방식의 장점을 결합하여, 조직이 정형 및 비정형 데이터를 모두 관리하고 비즈니스 애널리틱스 및 AI 워크로드에 활용할 수 있도록 지원합니다.
데이터브릭스 플랫폼은 데이터 엔지니어링, 데이터 과학, 머신러닝, 비즈니스 인텔리전스(BI) 등 다양한 데이터 관련 작업을 단일 환경에서 수행할 수 있도록 통합된 분석 플랫폼을 제공합니다. 이는 데이터 사일로(Data Silo) 현상을 해소하고, 데이터 팀 간의 협업을 촉진하여 데이터 기반 의사결정의 효율성을 극대화하는 것을 목표로 합니다.
2. 역사 및 발전 과정
데이터브릭스는 캘리포니아 대학교 버클리의 AMPLab 프로젝트에서 아파치 스파크 개발을 주도했던 창립자들이 2013년에 설립되었습니다. 창업자들은 알리 고드시(Ali Ghodsi), 앤디 콘윈스키(Andy Konwinski), 아살란 타바콜리-시라지(Arsalan Tavakoli-Shiraji), 이온 스토이카(Ion Stoica), 마테이 자하리아(Matei Zaharia), 패트릭 웬델(Patrick Wendell), 레이놀드 신(Reynold Xin) 등입니다. 이들은 스칼라(Scala) 기반의 오픈 소스 분산 컴퓨팅 프레임워크인 아파치 스파크의 잠재력을 상업적으로 구현하고자 했습니다.
창업 초기인 2013년 9월, 데이터브릭스는 앤드리슨 호로위츠(Andreessen Horowitz, a16z)가 주도하는 시리즈 A 펀딩에서 1,390만 달러를 조달하며 빠르게 성장했습니다. 2017년에는 마이크로소프트 애저(Microsoft Azure)와 통합 서비스를 발표하며 ‘애저 데이터브릭스(Azure Databricks)’를 출시했고, 2021년 2월에는 구글 클라우드(Google Cloud)와의 통합을 제공하며 구글 쿠버네티스 엔진(Google Kubernetes Engine) 및 구글 빅쿼리(Google BigQuery) 플랫폼과 연동을 확대했습니다.
데이터브릭스는 핵심 기술 개발에도 주력했습니다. 2018년에는 머신러닝 프로젝트의 개발 및 관리를 지원하는 오픈 소스 플랫폼인 MLflow를 출시했으며, 2019년에는 데이터 레이크에 ACID 트랜잭션(원자성, 일관성, 고립성, 지속성)을 지원하여 안정성을 제공하는 오픈 소스 스토리지 계층인 델타 레이크(Delta Lake)를 선보였습니다.
인수 합병을 통한 기술 역량 확장도 활발했습니다. 2020년 6월에는 데이터 시각화 및 대시보드 구축 도구인 Redash를 인수했으며, 2021년에는 독일의 노코드(no-code) 기업 8080 Labs를 인수했습니다. 2023년 6월에는 생성형 AI 스타트업 MosaicML을 13억 달러에 인수하여 생성형 AI 역량을 강화했고, 같은 해 10월에는 데이터 복제 스타트업 Arcion을 1억 달러에 인수했습니다. 2024년 2월에는 데이터 플랫폼 스타트업 Einblick을 인수했으며, 2024년 6월에는 Tabular를 10억 달러 이상에 인수하며 오픈 레이크하우스 기능을 강화했습니다. 2025년 2월에는 데이터 웨어하우스 마이그레이션 자동화 솔루션 기업인 BladeBridge를 인수했습니다.
데이터브릭스는 지속적인 대규모 투자 유치로 기업 가치를 높여왔습니다. 2021년 8월 시리즈 H 펀딩에서 16억 달러를 조달하며 380억 달러의 기업 가치를 인정받았고, 2023년 9월에는 430억 달러의 기업 가치로 엔비디아(NVIDIA), 캐피탈 원(Capital One) 등으로부터 5억 달러를 조달했습니다. 2024년 12월에는 100억 달러 규모의 시리즈 J 펀딩을 통해 620억 달러의 기업 가치를 달성했으며, 이는 2024년 최대 벤처 투자 유치 사례 중 하나였습니다. 2025년 8월에는 시리즈 K 펀딩에서 1000억 달러 이상의 기업 가치로 10억 달러를 유치했고, 2025년 12월에는 1340억 달러(약 196조 원)의 기업가치로 40억 달러 규모의 시리즈 L 투자를 진행했습니다.
3. 핵심 기술 및 아키텍처
데이터브릭스의 핵심은 데이터 레이크의 유연성과 데이터 웨어하우스의 구조 및 성능을 결합한 ‘레이크하우스(Lakehouse)’ 아키텍처입니다. 이 아키텍처는 데이터 레이크가 제공하는 다양한 데이터 형식 지원 및 저비용 스토리지의 유연성과, 데이터 웨어하우스가 제공하는 ACID 트랜잭션, 스키마 강제 적용, 데이터 품질, BI/SQL 성능 등의 구조적 이점을 모두 제공합니다. 이를 통해 기업은 정형 및 비정형 데이터를 모두 처리하고 분석하며, 머신러닝 워크로드까지 단일 플랫폼에서 지원할 수 있습니다.
주요 기술 요소는 다음과 같습니다:
- 아파치 스파크(Apache Spark) 엔진 최적화: 데이터브릭스는 아파치 스파크 엔진을 최적화하여 대규모 데이터 처리 속도와 효율성을 극대화합니다. 특히 ‘Photon’이라는 강력한 쿼리 엔진을 통해 스파크의 성능을 향상시키며, 이는 데이터브릭스 플랫폼의 핵심 구성 요소입니다. 스파크는 대용량 데이터를 분산 처리하는 오픈 소스 프레임워크로, 데이터브릭스는 이를 클라우드 환경에서 쉽게 사용할 수 있도록 관리형 서비스를 제공합니다.
- 델타 레이크(Delta Lake): 델타 레이크는 데이터 레이크에 안정성을 제공하는 오픈 소스 스토리지 계층입니다. 이는 데이터 레이크의 유연성을 유지하면서도 데이터 웨어하우스의 핵심 기능인 ACID 트랜잭션(원자성, 일관성, 고립성, 지속성)을 지원하여 데이터의 신뢰성과 무결성을 보장합니다. 또한, 스키마 강제 적용, 변경 데이터 캡처(CDC), 데이터 버전 관리 등의 기능을 제공하여 데이터 품질을 향상시킵니다.
- MLflow: MLflow는 머신러닝 프로젝트의 전체 라이프사이클(실험 추적, 모델 패키징, 모델 배포)을 개발하고 관리하는 데 도움이 되는 오픈 소스 플랫폼입니다. 데이터 과학자와 머신러닝 엔지니어가 모델 개발, 실험, 배포 과정을 효율적으로 관리하고 협업할 수 있도록 지원하여 MLOps(Machine Learning Operations)를 간소화합니다.
- 유니티 카탈로그(Unity Catalog): 유니티 카탈로그는 데이터브릭스 레이크하우스의 모든 데이터, 테이블, 파일, 머신러닝 모델에 대한 중앙 집중식 거버넌스 솔루션입니다. 이는 데이터 접근 제어, 감사, 데이터 계보 추적 등을 통합하여 데이터 보안과 규정 준수를 강화합니다. 데이터 관리자가 단일 지점에서 모든 데이터 자산을 관리하고 통제할 수 있도록 함으로써 데이터 거버넌스의 복잡성을 줄입니다.
데이터브릭스 아키텍처는 일반적으로 제어 평면(Control Plane)과 컴퓨트 평면(Compute Plane)의 두 계층으로 구성됩니다. 제어 평면은 사용자 인터페이스, 노트북, 작업 스케줄링, 메타데이터 관리 등을 담당하며, 컴퓨트 평면은 실제 데이터 처리 작업을 수행하는 클러스터와 SQL 웨어하우스로 구성됩니다. 이러한 분리된 아키텍처는 보안, 확장성 및 유연성을 보장합니다.
4. 주요 서비스 및 활용 사례
데이터브릭스는 데이터 엔지니어링, 분석, 머신러닝, 생성형 AI까지 아우르는 통합 ‘데이터 인텔리전스 플랫폼’을 제공합니다. 이 플랫폼은 데이터 수집(Auto Loader 등), 저장, 처리 작업을 위한 데이터 파이프라인 구축부터, 올랩(OLAP) 분석 모델 생성, BI 도구 및 SQL을 통한 데이터 분석, 그리고 자체 커스텀 LLM(Large Language Model) 생성 및 튜닝까지 지원합니다.
주요 서비스는 다음과 같습니다:
- 레이크베이스(Lakebase): AI 에이전트 구동에 특화된 차세대 운영형 데이터베이스(OLTP)입니다. 오픈 소스 포스트그레스(Postgres)를 기반으로 하며, AI 시대에 맞춰 설계되어 단일 통합 플랫폼에서 데이터 및 AI 애플리케이션을 빠르게 구축하도록 돕습니다. 2025년 6월, 데이터브릭스는 서버리스 포스트그레스 기업인 Neon을 인수하여 레이크베이스의 역량을 강화했습니다.
- 에이전트 브릭스(Agent Bricks): 기업의 AI 에이전트 구축을 돕는 도구 모음입니다. 고품질의 프로덕션 AI 에이전트를 기업 데이터에 최적화하여 구축하고 확장할 수 있도록 지원합니다.
- 데이터브릭스 원(Databricks One): 기술 전문가가 아닌 현업 사용자를 위한 대화형 사용자 인터페이스를 통해 AI 및 BI 도구를 제공하는 노코드(no-code) 버전의 데이터 인텔리전스 플랫폼입니다. 자연어 인터페이스를 통해 데이터 분석 및 인사이트 도출을 간소화합니다.
- 데이터브릭스 SQL(Databricks SQL): 데이터 레이크하우스 상에서 비즈니스 인텔리전스 및 분석 리포팅을 실행하기 위한 서비스입니다. AI 기반으로 워크로드를 자동 최적화하여 효율성과 성능을 향상시키며, SQL 또는 기술 전문 지식 없이도 데이터를 통해 인사이트를 얻을 수 있도록 돕습니다.
국내외 다양한 산업 분야에서 데이터브릭스 플랫폼의 활용 사례를 찾아볼 수 있습니다.
- 이커머스: 대형 이커머스 기업은 데이터브릭스를 활용하여 고객 행동 데이터를 분석하고 개인화 추천 시스템의 정확도를 향상시킵니다. 이를 통해 고객 만족도를 높이고 매출 증대에 기여합니다.
- 제조: 제조 대기업은 공정 데이터를 실시간으로 분석하여 불량률을 예측하고, 예지 보전(Predictive Maintenance)을 통해 설비 고장을 사전에 방지하여 비용을 절감하는 데 활용합니다.
- 항공: 버진 애틀랜틱(Virgin Atlantic)은 생성형 AI를 활용하여 자동화된 가격 책정 및 개인화된 고객 서비스를 제공하고 있습니다.
- 금융: 캐피탈 원 파이낸셜(Capital One Financial)은 데이터브릭스를 보안 정보 관리에 활용하여 금융 서비스의 안정성을 강화합니다.
- 광학 기기: 니콘(Nikon)은 MLflow를 활용하여 판매 계획을 자동화하고 시장 변화에 신속하게 대응합니다.
- 암호화폐: 코인베이스(Coinbase)는 블록체인 데이터에 대한 머신러닝 확장에 데이터브릭스를 사용하여 새로운 인사이트를 도출하고 있습니다.
- 자동차: 토요타(Toyota)는 데이터브릭스를 자사의 통합 데이터 및 AI 플랫폼인 “vista”의 핵심으로 채택했습니다.
5. 현재 동향 및 시장 영향력
데이터브릭스는 데이터 및 AI 인프라 수요 확대에 힘입어 기록적인 성장을 이어가고 있습니다. 2025 회계연도 4분기 기준 연간 환산 매출(revenue run-rate)이 54억 달러(약 7조 9천억 원)를 돌파하며 전년 대비 65% 이상 성장했습니다. AI 제품군 매출 런레이트도 14억 달러(약 2조 328억 원)를 넘어섰으며, 데이터 웨어하우징 사업에서도 연간 환산 매출 10억 달러를 달성했습니다. 또한, 최근 12개월 기준 잉여현금흐름(Free Cash Flow) 흑자를 달성하며 수익성도 확보했습니다.
데이터브릭스는 2025년 12월, 1340억 달러(약 196조 원)의 기업가치로 총 70억 달러(약 10조 원) 이상의 신규 자금을 조달하며 AI 전략 가속화에 집중하고 있습니다. 이는 약 50억 달러의 지분 투자와 약 20억 달러의 추가 차입 한도를 포함하는 규모입니다. 이러한 대규모 투자는 데이터브릭스의 인프라적 위상을 재확인하는 계기가 되었습니다.
데이터브릭스는 마이크로소프트, 구글 클라우드, 엔비디아, SAP 등 글로벌 빅테크 기업들과의 협력 관계를 확대하고 있습니다. 특히 2025년 6월에는 구글 클라우드와 전략적 AI 파트너십을 발표하며, 데이터 인텔리전스 플랫폼을 구글 클라우드 서비스와 더 깊이 통합하고 공동 고객을 위한 생성형 AI 채택을 가속화할 계획을 밝혔습니다. 2025년 9월에는 OpenAI와 1억 달러 규모의 파트너십을 체결하여 LLM을 데이터브릭스 플랫폼에 통합했습니다.
클라우드 데이터 웨어하우징 강자인 스노우플레이크(Snowflake)와 같은 기업들과 경쟁하며 데이터와 AI 통합이라는 더 넓은 비전을 제시하고 있습니다. 스노우플레이크가 주로 SQL 기반 분석과 비즈니스 인텔리전스에 특화된 반면, 데이터브릭스는 레이크하우스 아키텍처를 통해 데이터 엔지니어링, 머신러닝, AI 워크로드까지 아우르는 통합 플랫폼으로서 차별점을 강조합니다. 특히 생성형 AI 시대에 AI를 위한 가장 완벽한 준비 환경을 제공한다는 평가를 받으며 시장에서 중요한 위치를 차지하고 있습니다.
6. 미래 전망
데이터브릭스는 AI 혁명을 이끄는 핵심 플레이어로서 미래에도 지속적인 성장이 기대됩니다. 특히 AI 에이전트와 대화형 AI 어시스턴트 분야에 집중 투자할 계획입니다.
- 레이크베이스(Lakebase) 고도화: AI 에이전트에 최적화된 서버리스 포스트그레스 데이터베이스인 ‘레이크베이스’의 개발에 집중 투자할 예정입니다. 이는 AI 네이티브 애플리케이션 시대에 실시간 데이터 처리 및 확장성을 제공하는 데 필수적인 요소로 작용할 것입니다.
- 지니(Genie) 개발: 전사 구성원이 데이터와 자연어로 상호작용할 수 있는 대화형 AI 어시스턴트 ‘지니’의 고도화에도 집중 투자합니다. 지니는 임직원이 데이터와 대화하듯 활용하여 정확하고 실행 가능한 인사이트를 얻을 수 있도록 설계된 도구입니다.
또한, 데이터 인텔리전스 플랫폼을 구글 클라우드 서비스와 더 깊이 통합하고 공동 고객을 위한 생성형 AI 채택을 가속화하는 등 클라우드 파트너십을 더욱 강화할 예정입니다. 2025년 6월에는 구글 클라우드와 4년간의 파트너십을 체결하여 구글의 제미니(Gemini) 모델을 데이터브릭스 플랫폼에 통합하기로 했습니다.
데이터브릭스 공동창립자 겸 CEO인 알리 고드시는 기업들이 인텔리전트 애플리케이션 구축 방식을 재정의하고 있으며, 생성형 AI와 새로운 코딩 패러다임의 결합은 완전히 새로운 워크로드를 가능하게 할 것이라고 언급했습니다. 데이터브릭스는 모든 조직이 자체 데이터를 기반으로 AI 혁신을 실현할 수 있도록 지원하는 것을 목표로 하며, AI 시대의 데이터 인프라 전쟁에서 최전선에 설 것으로 전망됩니다.
참고 자료
- Databricks – Wikipedia
- 데이터브릭스 – 위키백과, 우리 모두의 백과사전
- Databricks Grows >55% YoY, Surpasses $4.8B Revenue Run-Rate, and is Raising >$4B Series L at $134B Valuation
- List of 16 Acquisitions by Databricks (Jan 2026) – Tracxn
- 데이터브릭스, 전년비 65% 성장…AI 에이전트·차세대 DB 초점 – 지디넷코리아
- What is Databricks? | Databricks on AWS – Databricks documentation
- What is Competitive Landscape of Databricks Company? – CanvasBusinessModel.com
- Databricks, Inc. Funding & Investor Information | Explore Extensive Investment Rounds – Exa
- 데이터브릭스, 전년 대비 65% 성장…연간 환산 매출 54억달러 돌파 – 디일렉(THE ELEC)
- 데이터브릭스, 전년 대비 55% 성장 및 연간 환산 매출 48억 달러 돌파… 기업가치 1,340억 달러로 시리즈 L 투자 유치 진행 중 – Databricks
- Databricks annual revenue run rate hits $4.8 billion with $134 billion valuation
- 데이터브릭스(Databricks), 데이터와 AI의 미래를 그리다 – 디지털서비스 이용지원시스템
- 데이터브릭스 – 나무위키:대문
- Databricks revenue, valuation & funding – Sacra
- 데이터브릭스, 기업가치 196조원 ‘껑충’…AI 인프라 전쟁의 최전선에 서다 – 뉴스탭
- Databricks Valuation – PM Insights
- 데이터브릭스(Databricks) – DataFlow: 솔루션 Solutions
- 데이터브릭스, 전년 대비 65% 이상 성장… 연간 환산 매출 54억 달러 돌파 – Databricks
- 데이터브릭스 (r25 판) – 나무위키
- 데이터브릭스 – 기업정보 | 투자, 매출, 기업가치 – THE VC – 더브이씨
- MicroVentures’ Portfolio Company: Databricks’ History and Milestones
- What is Azure Databricks? – Azure Databricks | Microsoft Learn
- 2026 Funding Rounds & List of Investors – Databricks – Tracxn
- Databricks Architecture Overview: Components & Workflow | by AccentFuture – Medium
- Databricks Raises $10B In 2024’s Largest Venture Funding Deal – Crunchbase News
- Could Databricks at $100B Be … Cheap? Why Growing 2x Faster Than Snowflake Might Make It the Better Buy | SaaStr
- Databricks Surpasses $4B Revenue Run-Rate, Exceeding $1B AI Revenue Run-Rate – PR Newswire
- Databricks is Raising $10B Series J Investment at $62B Valuation – Databricks
- Insights: Databricks’ Upcoming IPO & Private Stock Price – Forge
- Databricks Acquires Neon to Power Serverless Postgres at Scale for the AI-Native Era
- Databricks Seeks $5 Billion in New Funding at $134 Billion Valuation – Roic AI
- Databricks: Turn your data into a competitive advantage – SQORUS
- Databricks Acquires BladeBridge Technology and Talent to Accelerate Data Warehouse Migrations – PR Newswire
- You’ve got Databricks Snowflake war all wrong; Tabular Acquired for $1bn | by Hugo Lu
- Introduction to Databricks – Data Engineer Things
- The Competitive Landscape at Databricks Data AI Summit 2024: Databricks vs. Snowflake and the Future of Data Platforms – Pacific Data Integrators
- 스노우플레이크와 데이터브릭스: 우리 조직에 최적의 클라우드 데이터 플랫폼은?
- How does Databricks maintain competitive advantage? | Free Essay Example for Students
- How Manufacturers Are Using Databricks to Compete Globally – Xorbix Technologies
- [DBR] 데이터브릭스 소개
- ‘데이터브릭스 데이터+AI 서밋 2025’ 데이터 전문가를 위한 5가지 핵심 사항 – CIO
- Databricks는 처음인 당신을 위한 안내서: Part 1 – NNT Tech
- U6. 데이터브릭스(Databricks) – 브런치
- 데이터 및 AI 기업 – Databricks
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


