MySQL HeatWave란 무엇이고, 기존 MySQL과 어떻게 다른가요?

Q: HeatWave의 메모리 요구량은 어떻게 계산하나요?

Autopilot의 Auto Provisioning 기능으로 사전에 예측할 수 있어요. `CALL sys.heatwave_advisor()`를 실행하면 로드할 테이블 크기와 인코딩 방식을 분석해서 필요한 노드 수를 추천해줘요. 일반적으로 원본 데이터 크기의 20–30% 수준의 메모리가 필요해요(컬럼 압축 효과).

핵심 요약: MySQL HeatWave가 OLTP, OLAP, ML, GenAI를 하나의 MySQL 플랫폼에서 처리하는 방식을 설명해요. 실제 사례 기준 일간 통계 59배, 위성 데이터 로딩 27배 개선된 결과를 확인할 수 있어요.

실제 엔터프라이즈 환경에서는 이런 상황이 빈번하게 발생해요. MySQL로 OLTP를 처리하면서, 분석 쿼리는 별도 Redshift나 BigQuery로 보내는 구조를 운영하다 보면 어느 순간 ETL 파이프라인이 복잡해지고, 두 시스템 사이의 데이터 정합성 문제가 생기기 시작해요. 파이프라인 지연으로 "어제 데이터"를 보고 의사결정을 내리는 상황도 생기죠.

저희가 컨설팅한 고객사들에서 이 패턴을 반복해서 만났어요. 그리고 그 해결책으로 MySQL HeatWave를 도입한 사례들을 직접 운영하면서, 이 기술이 어떤 문제를 해결하고 어떤 한계를 가지는지 정리할 수 있었어요.

이 글에서는 MySQL HeatWave의 아키텍처와 기존 MySQL과의 차이, 실제 성능 수치, 그리고 도입 전에 반드시 알아야 할 트레이드오프를 다룰게요.

HeatWave란 무엇인가요?

MySQL HeatWave는 Oracle이 개발한 인메모리 MPP(Massively Parallel Processing) 쿼리 가속기예요. 기존 MySQL InnoDB 엔진 위에 HeatWave Cluster를 붙이는 구조로, OLTP와 OLAP을 하나의 플랫폼에서 처리할 수 있어요.

핵심 아이디어는 간단해요. InnoDB에 저장된 데이터를 HeatWave 노드의 메모리에 컬럼 형태로 로드하고, 분석 쿼리가 들어오면 쿼리 옵티마이저가 자동으로 HeatWave에 처리를 위임해요. 이걸 Query Pushdown이라고 해요. 애플리케이션 코드는 전혀 바꿀 필요가 없어요. 기존 SQL 쿼리 그대로 사용하면 돼요.

데이터 동기화도 자동이에요. InnoDB에서 변경이 발생하면 HeatWave 노드에 실시간으로 반영돼요. ETL 파이프라인 없이 항상 최신 데이터를 분석할 수 있는 구조예요.

-- HeatWave 클러스터에 테이블 로드 (한 번만 실행)
ALTER TABLE transactions SECONDARY_ENGINE=RAPID;
ALTER TABLE transactions SECONDARY_LOAD;

-- 이후 기존 쿼리 그대로 실행 -- 옵티마이저가 자동으로 HeatWave 사용
SELECT
  DATE_FORMAT(created_at, '%Y-%m') AS month,
  COUNT(DISTINCT user_id)          AS active_users,
  SUM(amount)                      AS total_amount
FROM transactions
WHERE created_at >= '2025-01-01'
GROUP BY month
ORDER BY month;

최대 512 노드, 500TB 데이터까지 처리할 수 있어요. 데이터를 Partition Key에 따라 노드에 분산하고, CPU Core 처리에 최적화된 방식으로 파티셔닝해요. 벡터 처리에 최적화된 인코딩과 압축도 자동으로 적용돼요.

기존 방식의 한계, ETL 파이프라인이 쌓이는 이유

MySQL만으로 분석 쿼리를 처리하려고 하면 금방 한계에 부딪혀요. InnoDB는 행(Row) 기반 스토리지 엔진이라 집계 쿼리에 최적화되어 있지 않아요. 수천만 건의 데이터를 풀스캔하는 쿼리가 수 분씩 걸리고, 그 동안 OLTP 성능에도 영향을 줘요.

그래서 대부분의 고객사는 분석 워크로드를 별도 시스템으로 분리해요. Redshift, BigQuery, Snowflake 같은 전용 분석 DB를 붙이고, 그 사이를 연결하는 ETL 파이프라인을 구축하는 거예요.

처음에는 이 구조가 합리적으로 보여요. 하지만 실제로 운영해 보니 문제가 쌓이기 시작했어요.

파이프라인 지연이 첫 번째예요. S3 → Lambda → Kinesis → Redshift로 이어지는 파이프라인은 보통 수십 분에서 수 시간의 지연이 발생해요. 실시간 분석이 필요한 서비스에서는 치명적이에요.

데이터 정합성 문제도 반복해서 만났어요. 파이프라인 중간에 오류가 생기면 MySQL과 분석 DB 사이에 데이터 불일치가 발생해요. 이걸 감지하고 복구하는 로직을 별도로 만들어야 해요.

운영 복잡도도 무시할 수 없어요. 두 시스템의 스키마를 동기화하고, 각각의 모니터링 체계를 유지하고, 두 팀이 각 시스템을 담당하는 구조가 되면 조직 복잡도까지 올라가요.

HeatWave가 해결하는 방식

HeatWave는 이 구조를 근본적으로 바꿔요. OLTP와 OLAP을 하나의 MySQL 인스턴스에서 처리하는 거예요.

마치 하나의 주방에서 빠른 주문(OLTP)과 대규모 연회 준비(OLAP)를 동시에 처리하는 것과 비슷해요. 기존에는 연회 준비를 위해 별도 주방을 차려야 했다면, HeatWave는 같은 주방에 고성능 조리 라인을 추가하는 방식이에요.

항목	기존 방식 (MySQL + 분석 DB)	HeatWave
아키텍처	MySQL + ETL + 분석 DB	MySQL + HeatWave Cluster
데이터 동기화	ETL 파이프라인 (지연 발생)	자동 실시간 반영
코드 변경	분석 DB용 쿼리 별도 작성	기존 SQL 그대로 사용
운영 시스템 수	2개 이상	1개
데이터 정합성	파이프라인 오류 시 불일치	단일 소스
ML/GenAI	별도 서비스 연동 필요	내장 (추가 비용 없음)

OLTP + OLAP + ML + GenAI를 하나의 플랫폼에서 처리할 수 있다는 점이 HeatWave의 가장 큰 차별점이에요. MySQL Enterprise Edition 기반이라 Data Masking, Audit, Firewall 같은 보안 기능도 기본 포함돼 있어요.

실제 성능, 숫자로 보는 차이

성능 이야기를 할 때 벤치마크 수치만 보면 실감이 안 나는 경우가 많아요. 저희가 직접 운영한 고객사 사례와 Oracle 공식 벤치마크를 함께 정리했어요.

A-FIN 운영 고객사 사례

선불카드/상품권 거래 서비스 (연간 3천억원대 거래 볼륨, 출처: A-FIN 내부 프로젝트):

쿼리 유형	데이터 규모	HeatWave 이전	HeatWave 이후	개선 배율
일간 통계	100만 Row	47.2초	0.8초	59배
주간 통계	750만 Row	128.5초	2.1초	61배
월간 통계	3,000만 Row	342.7초	5.3초	65배

원인을 추적한 끝에 발견한 건, 월간 통계 쿼리가 느린 이유가 단순히 데이터 양 때문이 아니라 InnoDB의 행 기반 스캔 방식 자체에 있었다는 거예요. HeatWave의 컬럼 기반 처리로 전환하면서 이 병목이 사라졌어요.

새팜 (위성 농작물 데이터 분석, 출처: A-FIN 내부 프로젝트):

작업	HeatWave 이전	HeatWave 이후	개선 배율
CSV 로딩 (10GB, 800파일)	85분	3.2분	27배
OLAP 쿼리	142분	4.7분	30배
ML 학습	320분	18분	18배

Oracle 공식 벤치마크 (TPC-H 기준)

TPC-H 10TB 기준 쿼리 성능 비교 (출처: Oracle 공식 벤치마크 자료):

비교 대상	속도 차이	가격대비성능 차이
Amazon Redshift	4배 빠름	10배 우수
Snowflake	4배 빠름	15배 우수
Google BigQuery	9배 빠름	20배 우수
Databricks	11배 빠름	37배 우수

TPC-H 500TB 규모에서는 데이터 로딩 시간이 4.43시간으로, Snowflake(9시간)와 Redshift(40시간)보다 빨랐어요. 쿼리 실행 시간도 2,150초로 Snowflake(39,040초) 대비 18배 빠른 수준이에요.

OLTP 성능도 주목할 만해요. TPC-C 기준 고동시성 환경에서 Aurora 대비 10배 높은 처리량을 보였고, 400 동시 사용자 실제 테스트에서는 응답시간이 40% 빠르고 처리량이 79% 높게 나왔어요. Thread Pool 지원 여부에서 비롯된 차이예요.

Autopilot으로 DBA 없이도 운영할 수 있나요?

HeatWave Autopilot은 ML 기반 자동화 기능이에요. 18개 이상의 자동화 기능이 포함돼 있어요.

운영하면서 계속 느낀 건, Autopilot이 없었다면 HeatWave 운영 난이도가 훨씬 높았을 거라는 거예요. 특히 Auto Data Placement와 Auto Query Plan Improvement가 실질적인 도움이 됐어요.

Auto Data Placement는 어떤 데이터를 어느 노드에 배치할지 ML로 예측해요. 메모리 예측 정확도가 96.9–98.4% 수준이에요. 수동으로 파티셔닝 전략을 설계하는 것보다 훨씬 정확하게 최적화해줘요.

Auto Query Plan Improvement는 쿼리 실행 계획을 자동으로 개선해요. TPC-H/TPC-DS 24TB 기준으로 40% 성능 향상을 보였어요.

그 외에도 Auto Provisioning(클러스터 크기 자동 추천), Auto Encoding(컬럼 인코딩 자동 최적화), Auto Compression, Auto Indexing, Auto Shape Prediction, Auto Thread Pooling 등이 포함돼 있어요.

-- Autopilot으로 최적 클러스터 크기 추천 받기
CALL sys.heatwave_advisor(JSON_OBJECT('target_schema', 'mydb'));

-- 추천 결과 확인
SELECT * FROM sys.heatwave_advisor_report\G

다만 Autopilot이 모든 걸 해결해주지는 않아요. 초기 설정과 튜닝에는 여전히 HeatWave에 대한 이해가 필요해요. "DBA 없이도 운영 가능하다"는 표현은 일상적인 운영 부담을 줄여준다는 의미지, 전문 지식이 전혀 필요 없다는 뜻은 아니에요.

도입 시 고려해야 할 트레이드오프

비용 절감과 성능 향상 수치만 보면 당장 도입하고 싶어지지만, 실제 프로젝트에서 만난 현실은 조금 달랐어요. 도입 전에 아래 항목들을 꼼꼼히 검토해야 해요.

메모리 요구량이 가장 먼저 확인해야 할 항목이에요. HeatWave는 인메모리 처리 방식이라 분석할 데이터 크기에 비례하는 메모리가 필요해요. 데이터가 많을수록 HeatWave 노드 수가 늘어나고 비용도 올라가요. Autopilot의 Auto Provisioning으로 필요한 노드 수를 사전에 예측할 수 있어요.

지원 쿼리 제한도 있어요. 대부분의 SELECT 쿼리는 HeatWave에서 처리되지만, 일부 함수나 복잡한 서브쿼리는 InnoDB로 폴백돼요. 기존 분석 쿼리 중 HeatWave에서 처리되지 않는 케이스가 있는지 사전에 확인해야 해요.

-- 쿼리가 HeatWave에서 처리되는지 확인
EXPLAIN SELECT SUM(amount) FROM transactions WHERE created_at >= '2025-01-01'\G
-- Extra 컬럼에 'Using secondary engine RAPID'가 표시되면 HeatWave 처리

학습 곡선도 무시할 수 없어요. MySQL 운영 경험이 있어도 HeatWave 특유의 개념(Secondary Engine, RAPID, Autopilot 설정 등)을 익히는 데 시간이 필요해요. 특히 OCI 환경이 처음인 팀이라면 모니터링 체계 구축에도 추가 리소스가 들어요.

배포 환경 선택도 중요해요. HeatWave는 OCI(모든 상용 리전), AWS, Azure(예정), GCP(예정)에서 사용할 수 있어요. 현재 AWS를 주로 사용하는 고객사라면 HeatWave on AWS를 선택할 수 있지만, OCI 대비 일부 기능 제한이 있을 수 있어요. 하이브리드 구성(Private Interconnect)은 2ms 미만 레이턴시를 지원해요.

검토 항목	핵심 포인트
메모리 요구량	분석 데이터 크기에 비례. Auto Provisioning으로 사전 예측 가능
지원 쿼리 범위	대부분의 SELECT 지원. 일부 함수/서브쿼리는 InnoDB 폴백
학습 곡선	HeatWave 개념 + OCI 환경 익히는 데 팀 리소스 필요
배포 환경	OCI 전체 기능, AWS는 일부 제한 가능. Azure/GCP는 예정
마이그레이션 기간	기존 시스템과 병행 운영 기간(1–3개월) 동안 비용 증가
쿼리 호환성 검증	기존 분석 쿼리 중 HeatWave 미지원 케이스 사전 확인 필요

HeatWave vs Aurora MySQL 기술 스펙 비교

Aurora MySQL과 자주 비교되는 만큼, 주요 차이점을 정리했어요.

항목	Aurora MySQL	MySQL HeatWave
MySQL Edition	Community Edition	Enterprise Edition
MySQL 버전 지원	8.0까지	8.0 / 8.4 LTS / 9.0
OLAP 가속	별도 시스템 필요	HeatWave Cluster 내장
Thread Pool	미지원	지원
I/O 과금	요청 기반 별도 과금	없음
Data Masking	미제공	Enterprise Edition 포함
AutoML / GenAI	별도 서비스 필요	추가 비용 없이 포함
Read Replica	최대 15개	최대 18개
HA SLA	99.99% (Multi-AZ)	99.995%
vCPU 비용	기준	Aurora 대비 77% 절감

MySQL Enterprise Edition이 포함된다는 점은 보안 요건이 까다로운 고객사에게 의미 있는 차이예요. ISMS-P 인증이나 금융보안원 가이드라인을 준수해야 하는 환경에서 Data Masking, 고급 감사 로그 기능이 기본 제공된다는 건 별도 솔루션 비용을 줄여줘요.

MySQL 버전 지원도 차이가 있어요. Aurora는 8.0까지만 지원하지만, HeatWave는 8.4 LTS와 9.0도 지원해요. 장기 운영 관점에서 LTS 버전 지원 여부는 중요한 선택 기준이에요.

핵심 요약

MySQL HeatWave는 InnoDB 위에 MPP 인메모리 쿼리 가속기(HeatWave Cluster)를 붙인 구조예요. OLTP와 OLAP을 하나의 플랫폼에서 처리해요.
코드 변경 없이 기존 SQL 쿼리 그대로 사용할 수 있어요. 쿼리 옵티마이저가 자동으로 HeatWave에 분석 쿼리를 위임해요(Query Pushdown).
실제 운영 사례에서 월간 통계 쿼리(3,000만 Row)가 342.7초에서 5.3초로 줄었어요(65배). Oracle 공식 TPC-H 10TB 벤치마크에서 Redshift 대비 4배, BigQuery 대비 9배 빠른 성능을 보였어요.
Autopilot의 18개 이상 자동화 기능(Auto Data Placement, Auto Query Plan Improvement 등)이 운영 부담을 줄여줘요. 메모리 예측 정확도는 96.9–98.4% 수준이에요.
도입 전에 메모리 요구량, 지원 쿼리 범위, 팀 학습 곡선, 마이그레이션 기간 비용을 반드시 검토해야 해요.

FAQ

Q. MySQL HeatWave를 사용하려면 애플리케이션 코드를 수정해야 하나요?

수정할 필요 없어요. 기존 MySQL 연결 문자열과 SQL 쿼리를 그대로 사용하면 돼요. HeatWave 클러스터에 테이블을 로드하면, 쿼리 옵티마이저가 자동으로 분석 쿼리를 HeatWave에서 처리해요. 다만 HeatWave에서 처리되지 않는 쿼리 패턴이 있는지 사전에 EXPLAIN으로 확인하는 게 좋아요.

Q. HeatWave와 Redshift/BigQuery를 함께 사용해야 하나요?

HeatWave를 도입하면 별도 분석 DB 없이 운영하는 고객사들이 늘고 있어요. Lakehouse 기능을 통해 Object Storage(S3, OCI Object Storage)에 저장된 CSV, Parquet, Avro, JSON 파일도 ETL 없이 직접 쿼리할 수 있어요. 다만 기존 Redshift/BigQuery에 구축된 복잡한 분석 파이프라인이 있다면, 전환 공수를 현실적으로 평가해야 해요.

Q. HeatWave의 메모리 요구량은 어떻게 계산하나요?

Autopilot의 Auto Provisioning 기능으로 사전에 예측할 수 있어요. CALL sys.heatwave_advisor()를 실행하면 로드할 테이블 크기와 인코딩 방식을 분석해서 필요한 노드 수를 추천해줘요. 일반적으로 원본 데이터 크기의 20–30% 수준의 메모리가 필요해요(컬럼 압축 효과).

Q. HeatWave AutoML은 어떤 작업에 사용할 수 있나요?

예측, 분류, 이상탐지, 시계열 예측, 추천 시스템을 SQL 기반으로 처리할 수 있어요. 별도 Python 환경이나 ML 플랫폼 없이 MySQL 쿼리로 ML 모델을 학습하고 예측 결과를 조회할 수 있어요. 새팜 사례에서 ML 학습 시간이 320분에서 18분으로 줄었어요(18배).

Q. HeatWave는 어떤 배포 환경에서 사용할 수 있나요?

현재 OCI(모든 상용 리전)와 AWS에서 사용할 수 있어요. Azure와 GCP는 예정이에요. OCI Dedicated Region, Cloud@Customer, Alloy Service를 통한 온프레미스 배포도 지원해요. 하이브리드 구성 시 Private Interconnect로 2ms 미만 레이턴시를 유지할 수 있어요.

운영하면서 계속 느낀 건, HeatWave의 가장 큰 가치는 성능 수치 자체보다 "아키텍처 단순화"에 있다는 거예요. ETL 파이프라인을 제거하고 단일 시스템으로 운영하면서 데이터 정합성 문제가 사라지고, 운영 복잡도가 낮아졌어요.

다음 글에서는 HeatWave Lakehouse를 활용해 Object Storage 데이터를 ETL 없이 분석하는 방법을 다룰게요. Aurora에서 HeatWave로 전환할 때의 비용 비교가 궁금하다면, Aurora MySQL에서 HeatWave로 전환하면 비용이 얼마나 절감되나요?도 함께 읽어보세요.

MySQL HeatWave란 무엇이고, 기존 MySQL과 어떻게 다른가요?

MySQL HeatWave란 무엇이고, 기존 MySQL과 어떻게 다른가요?

HeatWave란 무엇인가요?

기존 방식의 한계, ETL 파이프라인이 쌓이는 이유

HeatWave가 해결하는 방식

실제 성능, 숫자로 보는 차이

A-FIN 운영 고객사 사례

Oracle 공식 벤치마크 (TPC-H 기준)

Autopilot으로 DBA 없이도 운영할 수 있나요?

도입 시 고려해야 할 트레이드오프

HeatWave vs Aurora MySQL 기술 스펙 비교

핵심 요약

FAQ

데이터 분석 성능, 지금보다 빠르게 만들 수 있습니다.