인공지능(Artificial intelligence, AI)는 전례 없는 속도로 진화하고 있으며 생성형 AI(Generative AI, GenAI)는 이 거대한 변화의 선두에 있습니다. GenAI의 기능은 텍스트 작성에서 음악과 예술 창작에 이르기까지 매우 광범위합니다. 하지만, GenAI의 가장 독특한 점은 상황(context)을 분명하게 이해하고, 인간과 매우 유사한 결과물을 만들어낸다는 것입니다. 이는 지능형 챗봇과의 대화만이 아닙니다. GenAI는 여러 산업을 획기적으로 변화시킬 수 있는 잠재력을 가지고 있으며, 보다 풍부한 사용자 경험을 제공하고 새로운 가능성을 열어줍니다.
앞으로 몇 개월, 몇 년 내에, GenAI의 위력을 활용하는 애플리케이션이 등장할 것이며, 이전에 볼 수 없었던 기능들을 제공할 것입니다. 널리 인기있는 챗봇인 챗GPT(ChatGPT)와 달리, 사용자들은 GenAI가 그 뒤에서 실행되고 있다는 사실을 반드시 인식하지는 않을 것입니다. 하지만, 그 뒤에서 이들 새로운 애플리케이션은 정보 검색과 텍스트 생성을 결합하여 진정한 의미의 개인화되고 상황(context)에 맞는 사용자 경험을 실시간으로 제공할 것입니다. 이러한 프로세스를 검색 증강 생성(Retrieval-Augmented Generation), 즉 RAG라고 부릅니다.
그렇다면, RAG가 어떻게 실행되며, 이 프로세스에서 데이터베이스는 어떤 역할을 하는 것일까요? GenAI의 세계와 그 데이터베이스 요구 사항에 대해 자세히 살펴보도록 하겠습니다.
AI 기반 모델 훈련의 과제
GenAI이 가진 주요 과제 중 하나는 프라이빗(private) 또는 비공개(proprietary) 데이터에 액세스할 수 없다는 것입니다. AI 기반 모델은 일반적으로 공개적으로 이용 가능한 데이터를 기초로 훈련되지만, 기밀 또는 비공개 정보에는 액세스할 수 없으며, LLM(Large Language Model)도 여기에 포함됩니다. 데이터가 공개 영역에 있더라도, 오래되었거나 관련성이 낮을 수 있습니다. LLM도 가장 최근의 이벤트나 지식을 인식하는 데 한계가 있습니다. 뿐만 아니라, 적합한 지침이 없다면, LLM은 부정확한 정보를 생성할 수 있으며, 이는 대부분 상황에서 받아들여질 수 없습니다.
데이터베이스는 이러한 과제를 해결하는 데 중요한 역할을 수행합니다. 애플리케이션은 LLM로 직접 프롬프트를 보내는 것이 아니라, 데이터베이스를 사용해 관련 데이터를 검색하고 이를 컨텍스트로서 프롬프트에 포함시킬 수 있습니다. 예를 들어, 뱅킹 애플리케이션은 레거시 데이터베이스에 사용자의 거래 데이터를 쿼리하고, 이를 프롬프트에 추가한 다음, 이 엔지니어링된 프롬프트를 LLM로 전달합니다. 이러한 접근 방식으로 LLM가 정확한 최신 응답을 생성하도록 보장함으로써 데이터 누락, 기간 만료된(stale) 데이터 및 부정확성 등과 같은 문제를 없앨 수 있습니다.
GenAI 애플리케이션을 위한 주요 4가지 데이터베이스 고려 사항
모든 이들이 동일한 툴과 지식 기반을 활용할 수 있는 상황에서 기업들이 GenAI를 활용해 확실한 경쟁 우위를 달성하는 것은 결코 쉬운 일이 아닙니다. 오히려 차별화를 위한 핵심 열쇠는 기반 모델과 LLM이 지원하는 생성형 AI 위에 자사가 보유한 독점 데이터 계층을 쌓아 올리는 데 있을 것입니다. GenAI 기반 애플리케이션이 가진 모든 잠재력을 활용하기 위해 데이터베이스를 선택할 때, 기업들은 다음과 같은 4가지 주요 고려 사항을 중점적으로 살펴봐야 할 것입니다.
-
쿼리 기능(Queryability:) 데이터베이스는 리치 표현식 쿼리와 보조 인덱스를 지원함으로써 실시간 상황 인식(context-aware) 사용자 경험을 제공할 수 있어야 합니다. 이 기능은 쿼리의 복잡성이나, 데이터베이스에 저장된 데이터의 크기 등에 관계없이 밀리초(millisecond) 단위로 데이터를 검색할 수 있도록 보장합니다.
-
유연한 데이터 모델: GenAI 애플리케이션은 많은 경우, 다양한 유형 및 포맷의 데이터, 일명 멀티 모달(multi-modal) 데이터를 요구합니다. 변화하는 데이터 세트를 수용하기 위해 데이터베이스는 스키마 변경, 코드 수정 또는 버전 릴리스 등을 수행하지 않고도 새로운 데이터를 쉽게 온보딩할 수 있는 유연한 데이터 모델을 가지고 있어야 합니다. 관계형 데이터베이스는 정형 데이터를 처리하도록 설계되었으며, 엄격한 스키마 규칙에 따라 정보가 열과 행으로 이루어진 표로 정리됩니다. 따라서, 멀티 모달 데이터를 다루기 어려울 수 있습니다.
-
통합 벡터 검색(Integrated vector search): GenAI 애플리케이션은 free-form 텍스트, 오디오 또는 이미지 등 다양한 유형의 데이터에 대해 시맨틱(semantic) 또는 유사성(similarity)쿼리를 실행해야 할 수도 있습니다. 벡터 데이터베이스 내 벡터 임베딩은 시맨틱 또는 유사성 쿼리를 가능하게 합니다. 벡터 임베딩은 데이터의 시맨틱 의미와 상황(contextual) 정보를 포착하여 텍스트 분류, 머신 번역 및 시맨틱 분석 등과 같은 다양한 작업에 적합하게 만듭니다. 데이터베이스는 통합 벡터 검색 인덱싱 기능을 제공함으로써 2개의 별도 시스템을 유지하고 동기화하는 데 따른 복잡성을 없애고, 개발자들을 위해 일원화된 쿼리 언어를 보장합니다.
-
확장성(Scalability): GenAI 애플리케이션들은 사용자수와 데이터 사이즈의 측면에서 증가하고 있기 때문에 데이터베이스는 증가하는 데이터 볼륨과 요청 처리율(request rates)을 지원하도록 동적으로 스케일 아웃(scale-out)할 수 있어야 합니다. 스케일 아웃 샤딩(sharding)을 기본적으로 지원함으로써 데이터베이스의 한계가 비즈니스 성장을 방해하지 않도록 보장합니다.
최적의 데이터베이스 솔루션: MongoDB Atlas
MongoDB Atlas는 GenAI의 고유한 요구 사항들을 처리할 수 있는 강력한 다목적 플랫폼입니다. MongoDB는 멀티 모달 데이터를 손쉽게 처리할 수 있도록 강력한 쿼리 API를 사용함으로써 개발자들이 작성하는 코드 수는 줄이면서 더 많은 작업을 수행할 수 있도록 합니다. MongoDB는 개발자들에게 가장 인기있는 도큐먼트 데이터베이스입니다. 도큐먼트가 객체 지향적인 프로그래밍 내에서 객체를 매핑하며, 이는 관계형 데이터베이스의 끝없는 행과 테이블보다 친숙하기 때문에 개발자들은 도큐먼트를 이용해 쉽고 직관적으로 작업할 수 있습니다. 유연한 스키마 설계를 통해 본질적으로 멀티 모달인 GenAI 활용 사례의 요구에 맞게 이러한 데이터 모델을 발전시킬 수 있습니다. Atlas는 샤딩(sharding)을 활용함으로써 GenAI 기반 애플리케이션에서 생성된 데이터와 요청의 급격한 증가를 지원하도록 스케일 아웃할 수 있습니다.
MongoDB Atlas Vector Search는 기본적으로 벡터 검색 인덱싱 기능을 내장하고 있기 때문에 2개의 시스템을 유지할 필요가 없습니다. Atlas는 소스 데이터를 통해 Vector Search 인덱스가 지속적으로 업데이트되도록 합니다. 개발자들은 단일 엔드포인트와 쿼리 언어를 활용해 정규 데이터베이스 쿼리 필터와 벡터 검색 필터를 결합한 쿼리를 작성할 수 있습니다. 이를 통해 마찰을 없애고 개발자들이 신속하게 GenAI 솔루션의 프로토타입을 만들고 제공할 수 있는 환경을 제공합니다.
결론
GenAI는 이제 곧 산업들을 변화시키고 산업 전반에서 혁신적인 솔루션을 제공하게 될 것입니다. 최적의 데이터베이스 솔루션을 활용하는 GenAI 애플리케이션들은 성공을 거두게 될 것이며, 오늘날 빠르게 변화하는 디지털 환경의 요구를 충족하는 정확하고, 상황을 인식하는 동적 데이터 기반 사용자 경험을 제공할 수 있을 것입니다. MongoDB Atlas를 통해 기업들은 민첩성, 생산성 및 성장을 달성함으로써 빠르게 변화하는 생성형 AI의 세계에서 경쟁 우위를 확보하게 될 것입니다.
Atlas가 어떻게 기업들이 GenAI와 LLM 데이터를 통합하고 운영할 수 있도록 돕는지를 자세히 알아보시려면, MongoDB의 백서, "MongoDB를 이용한 생성형 AI 및 고급 검색 기능을 앱에 임베딩하기(Embedding Generative AI and Advanced Search into your Apps with MongoDB)"를 다운로드하십시오. 귀사에서 생성형 AI를 활용하는 데 대해 관심이 있으시면, 지금 바로 연락 주십시오. MongoDB가 어떻게 귀사의 디지털 전환을 지원할 수 있는지 알려드릴 것입니다.