2023년을 뜨겁게 달군 ChatGPT에 대한 관심은 여전히 뜨겁습니다. 원하는 질문에 대한 빠른 답변과 창작, 코딩까지 가능하여 인간을 대체할 수도 있다는 우려가 나오기도 했습니다. ChatGPT에 텍스트를 입력하면 원하는 답변을 얻을 수 있지만, 이미지를 공유하는 것으로 대체할 수 있다면 좀더 편리하지 않을까요?
최근 출시된 ChatGPT-4와 ChatGPT-4V는 시각기능이 추가되어 텍스트와 이미지를 함께 처리할 수 있습니다. 이처럼 텍스트, 이미지, 음성 등 다양한 형태를 지원하는 것을 ‘멀티 모달’이라고 하며, 멀티모달이 가능한 거대언어모델을 LMM(Large Multi-modal Model)또는 MLM(Multi-modal Large Model)이라고 합니다. 오픈AI의 ChatGPT와 마이크로소프트의 Copilot과 같은 생성형AI는 모두 거대 언어모델(LLM)을 기반으로 구현되어 있습니다.
거대언어모델(LLM) = ChatGPT?
ChatGPT가 주목받으면서 거대 언어 모델 = ChatGPT로 생각할 수 있으나, ChatGPT는 거대 언어 모델을 응용한 챗봇 서비스이며, 거대 언어모델은 규모가 큰 언어모델(Language Model)을 의미합니다. 여기서 언어모델(Language Model)이란 입력값을 기반으로 통계학적으로 가장 적절한 출력값을 출력하도록 학습된 모델입니다.
거대 언어 모델(LLM, Large Language Model)은 수십억개의 단어로 구성된 방대한 양의 텍스트데이터를 학습한 언어모델로, 인간의 언어를 이해하고 생성하도록 훈련된 인공지능을 뜻합니다. LLM은 수많은 파라미터*를 보유한 인공신경망으로 구성되어 있어 수많은 양의 텍스트를 통해 훈련을 거듭한 뒤 맥락을 파악하여 적절한 답을 만들어냅니다.
*파라미터(Parameter): 사용자가 원하는 방식으로 자료가 처리되도록 하기 위해 명령어를 입력할 때 추가하거나 변경하는 수치 정보로, 파라미터가 많으면 AI의 성능이 좋아진다.
방대한 양의 텍스트 데이터를 학습했기 때문에 다양한 종류의 텍스트를 생성할 수 있는 능력을 갖췄는데요. 예를들어, 코드, 대본, 음악, 이메일 등 다양한 종류의 텍스트를 생성할 수 있습니다. 또한 텍스트를 번역·요약하거나 질문에 답하는 등의 작업에도 사용할 수 있습니다.
이미지까지 인식 가능한 LMM
LMM은 텍스트 이외에도 이미지, 오디오 등 여러가지 유형의 데이터를 통합하여 처리할 수 있는 능력을 갖춘 모델입니다. 예를 들어 영화, 음악, 뉴스 등 다양한 미디어 콘텐츠 요약 및 생성, 음성 인식, 이미지 인식, 감정 분석 등 여러가지 유형의 데이터를 처리하는 작업에 사용될 수 있습니다.
구글의 제미니(Gemini)
구글에서는 LLM과 LMM을 합한 멀티모달AI 제미니(Gemini)를 공개하였습니다. 제미니는 텍스트, 이미지, 음성을 인식하여 이용자와 소통하는 멀티모달 AI기능을 탑재하고 있습니다. 구글이 제미니 성능을 공개한 간담회에서 제미니는 사람이 보여주는 그림을 음성으로 설명하고, 어려운 문제를 추론해 해결하는 모습을 보였습니다. 또한 전문지식들을 전문가 수준으로 알고 있는지를 테스트하는 방식인 MMLU에서 90%의 점수를 얻었으며, 인간 전문가 점수인 89.8%를 넘은 첫 AI모델입니다. 텍스트, 이미지, 비디오 등을 동시에 인식하고 이해하도록 훈련되어있으며, 수학이나 과학과 같은 복잡한 추론능력과 코딩분야에서도 뛰어난 성능을 보이고 있습니다. 제미니는 특수화된 모델에 의존하지 않고 어떤 데이터나 작업도 다룰 수 있도록 설계되었으며, ChatGPT를 포함한 기존 AI시스템들의 성능을 능가할 것으로 기대되고 있습니다.
이처럼 구글의 멀티모달 AI Gemini, MS의 KOSMOS, Apple의 Frret 등 세계적인 기업에서 LMM을 활용한 성과물을 내놓고 있습니다. LMM은 이미지,음성 등 다양한 방식으로 학습이 가능하여 기존 언어모델의 활용폭을 크게 넓혀줄 것으로 기대되며, 인공지능의 한계를 넘어서 우리의 삶을 바꿔줄 것으로 예측되는 기대와 두려움의 대상이기도 합니다.
-
PREV 3월 2주차 보안 알리미
2024-03-15 -
NEXT 3월 3주차 보안 알리미
2024-03-22