몇 달 전, 유럽의 대형 은행 데이터 아키텍처 담당자와 이야기를 나눴습니다. 그들은 최근 몇년에 걸친 투자로 현대적인 데이터 레이크하우스 플랫폼을 구축했습니다. 이 플랫폼은 Azure 기반의 Databricks와 SAS, Oracle, SharePoint와 같은 레거시 시스템, Excel에서 데이터를 가져오는 몇 개의 오래된 대시보드를 결합한 구조였습니다.
“우리는 데이터 아키텍처를 현대화했습니다. 하지만, CFO가 클레임, 인사, 재무 부서 전반에 걸친 데이터를 요청할 때, 우리는 여전히 데이터를 수동으로 통합해야 하는데, 이는 엄청난 고통입니다.”라고 그 담당자는 말했습니다.
이 문제는 성능이나 확장성 때문이 아니라, 의미론적 혼란, 연결되지 않은 액세스, 데이터 거버넌스 병목 때문입니다.
또한, 이것은 이 은행만의 문제가 아닙니다.
데이터 레이크하우스만으로는 역부족
Databricks와 Snowflake는 파워풀한 데이터 레이크하우스입니다. 정형 및 비정형 데이터를 통합할 수 있고 데이터 파이프라인을 최적화하며 규모가 큰 머신러닝도 지원 가능합니다. 하지만, 많은 규제가 존재하는 하이브리드 멀티 플랫폼 환경에서 모든 복잡함을 제거하기는 쉽지 않습니다.
이 은행의 문제점은 명확했습니다.
- 통합된 비즈니스 레이어 부재: 비즈니스 사용자는 엔지니어의 도움 없이는 여러 도메인의 데이터를 이해할 수가 없었습니다. 각 부서별로 데이터의 정의가 달라 ‘고객’이라는 용어가 각 보고서마다 다른 의미를 가졌습니다.
- 분산된 데이터 환경: 중요한 데이터는 여전히 Infocenter, SAS 모델, SharePoint 폴더, 다중 Databricks 클러스터 등에 분산되어 있었습니다.
- 컴플라이언스 문제: RBAC 및 ABAC와 같은 Azure 고유 정책이 부분적으로만 적용되었고, SharePoint는 레이크하우스 모델에 완전히 통합되지 않았습니다. 감사팀에서는 계속 위험 신호를 보냈습니다.
문제를 해결하기 위해 레이크하우스를 폐기하거나 우회하는 방식을 취할 필요는 없었습니다. 복잡함을 추상화하고 시맨틱을 통일하며 거버넌스 정책을 실시간으로 적용할 수 있도록, 데이터 레이크하우스 위에 새로운 레이어를 추가하는 것이 필요했습니다.
놓치고 있던 연결고리: 실시간 시맨틱 레이어
디노도 플랫폼을 Azure 환경에서 실시간 시맨틱 레이어로 구현함으로써 이 은행은 SharePoint, Databricks, Oracle, SaaS 등 10개 이상의 플랫폼을 가상 레이어로 통합 및 연결했습니다. 데이터 복제나 이동이 필요 없었습니다.
디노도 플랫폼폼은 다음과 같은 변화를 가져왔습니다.
- 데이터 거버넌스가 적용된 데이터에 대한 실시간 도메인 간 액세스
- 비즈니스 요구사항에 맞춘 시맨틱으로 인사, 자산 관리, 재무 팀이 공통된 언어로 소통할 수 있게 됐습니다.
- 다이내믹 마스킹, RBAC, ABAC를 지원하며 Collibra와의 원활한 통합을 포함하는 엔터프라이즈급 데이터 거버넌스
그 결과, 과거에는 수개월이 걸리던 대출 포트폴리오, 신용카드 거래, 재무 현금 흐름 조정 작업이 이제 일주일 만에 가능해졌습니다. 50명이 넘는 데이터 엔지니어와 비즈니스 분석가들이 스스로 안전하게 필요한 데이터를 탐색할 수 있게 되었습니다.
디노도 플랫폼은 은행의 데이터 메쉬 전략의 핵심 동력으로 자리 잡았으며, 기존 Databricks 환경과 상호 보완하여 도메인 간 거버넌스가 적용된 실시간 데이터 액세스를 제공하는 동시에 비즈니스 사용자의 데이터 셀프 서비스를 가능하게 했습니다.
비금융 산업에서 발생한 생성형 AI의 오류
데이터 레이크하우스를 갖춘 한 대형 통신사는 검색 증강 생성(RAG) 기술을 활용해 생성형 AI 기반의 챗봇을 구현했습니다. 이 챗봇의 역할은 고객 서비스 담당자가 질문에 답변을 제공하기 위해 고객 서비스 제공 데이터베이스, 요금 결제 플랫폼, 디바이스 재고 시스템, 고객 계정 데이터 등 정형화된 내부 시스템으로부터 정보를 추출해 지원하는 것이었습니다. 이러한 정보는 핵심 필드와 메타데이터를 벡터로 변환해 벡터 데이터베이스에 저장되었습니다.
이는 이론상으로는 훌륭해 보이지만, 실제로는 제대로 작동하지 못했습니다. :
- 레거시 시스템에 있는, 업데이트되지 않은 요금제 정보를 표시하는 경우가 있었습니다.
- 서비스 등급을 혼동해 기업용 서비스와 소비자용 패키지를 섞어 표시하는 일이 생겼습니다.
- 고객에게 숨겨야 할 내부 정보가 유출되는 경우도 있었습니다.
왜 이런 일이 생겼을까요? 해당 모델은 사일로화된 시스템에 있는 통합되지 않은 정보에 의존했으며, 데이터 거버넌스와 보안 통제가 부족했기 때문입니다. 또한, 통합된 시맨틱 레이어가 결여되어 데이터 정의 표준화, 액세스 정책 적용, 데이터 소스 관계의 실시간 해석이 불가능했습니다.
디노도를 도입하자 효과가 즉각 나타났습니다.
이제 챗봇은 저장된 콘텐츠에만 의존하지 않고 쿼리 RAG를 사용하여 디노도 플랫폼의 논리적 데이터 관리 계층을 통해 실시간으로 관리되는 데이터에 액세스하기 위해 SQL 쿼리를 동적으로 생성할 수 있게 되었습니다. BI 및 분석 팀이 신뢰하는 논리적 데이터 관리 계층은 일관된 의미 체계, 동적 마스킹, 최신 엔터프라이즈 시스템을 기반으로 한 실시간 응답을 제공합니다.
큰 그림
인사와 자산 관리 정보를 연결하려는 은행이든, 더 스마트한 디지털 비서를 구축하려는 통신사이든, 해결해야 하는 과제는 동일합니다:
- 레이크하우스는 속도와 확장성을 제공하지만 포괄적인 시맨틱 레이어와 데이터 거버넌스 및 보안 기능이 부족합니다.
- 디노도 플랫폼은 비즈니스 사용자에게 필요한 시맨틱 일관성, 정책 제어, 셀프 서비스를 통해 분산된 데이터에 실시간으로 액세스할 수 있게 해줍니다.
레이크하우스와 디노도는 과제를 함께 풀어갈 수 있습니다.
데이터 레이크하우스 최적화
데이터 레이크하우스가 잘 운영되고 있지만 비즈니스 팀이 여전히 불편한 방법을 사용하고 있다면, 디노도에서 도와드릴 수 있습니다.
레이크하우스를 대체하는 것이 아닙니다. 하이브리드 실시간 AI 기반 환경에서 레이크하우스가 원활하게 작동하는 데 필요한 시맨틱과 거버넌스 계층을 제공하는 것입니다.
데이터 레이크하우스 최적화에 대한 자세한 내용은 여기에서 확인하실 수 있습니다.