이미지출처] STABLE DIFFUSION/DALLE2/MIDJOURNEY/CHATGPT

 

Gen AI, 어떤 게 있을까?

 

초거대 AI, 제너레이티브 AI는 세상에 등장하자마자 크게 주목을 받았습니다.

혁신성은 차치하고라도 기술 자체의 무궁무진한 활용성과 가능성에 많은 사람이 놀라고 있고, 무엇보다 기업과 직장인은 Gen AI를 활용한 업무의 효율 향상과 간소화에 기대감을 높이고 있습니다. 

 

그런데 정작 Gen AI에는 어떤 것들이 있고, 어떻게 쓰는지 모르는 사람이 대부분입니다. 그런 분들을 위해 시리즈로 Gen AI 몇 가지를 소개해 드릴까 합니다.

 

이미지출처] STABLE DIFFUSION

 

저 사양에서도 구동 가능한 그림 인공지능의 아버지, 스테이블 디퓨전


스테이블 디퓨전은 독일 뮌헨대학교 연구실의 “잠재 확산 모델을 이용한 고새상도 이미지 

합성 연구”를 기반으로 Stability AI와 Runway ML 등의 지원을 받아 개발된 딥러닝 인공지능 모델입니다. 

 

2022년 8월 22일 출시돼 Dall-E 초기 버전보다 1년 이상 늦게 나왔지만 사실상 그림 인공지능 시대를 연 모델이라고 평가받는데, 기존 Text to Image 모델과 다르게 컴퓨터 사용 리소스를 대폭 줄여 4GB 이하의 VRAM을 가진 컴퓨터에서 구동 가능하다는 점, 통 크게 오픈 소스로 공개해서 일반인도 쉽게 사용할 수 있다는 점 때문입니다.

 

오픈소스로 공개한 덕분에 스테이블 디퓨전을 기반으로 하는 AI 이미지 서비스가 우후죽순으로 늘어나고 있습니다. Playground AI, Leonardo AI 등 꽤 유명해진 AI 이미지 서비스도 스테이블 디퓨전 덕을 보았습니다. 사용자가 이미지 학습을 통해 특정 이미지 영역의 표현을 강조하는 모델로 Fine-Tuning 할 수 있습니다.

 

 


이미지출처] DALLE2

 

Gen AI 시대의 서막을 알린 Dall-E 론칭

Gen AI 하면 가장 먼저 ChatGPT를 떠올리기 쉽지만, 서막을 알린 건 이미지 제너레이팅 쪽이었습니다. Dall-E는 2021년 1월 출시, 같은 해 5월 초기 버전을 최초로 공개했고, 2022년 4월 6일에는 Dall-E 2를 공개했습니다. Dall-E는 인공지능 로봇이 등장하는 애니메이션 <월-E>와 화가 ‘살바도르 달리’에서 따온 이름입니다. 

 

Dall-E 초기 모델은 크게 주목받지 못하였지만, 전작보다 화질이 4배는 상승하고 정교해진 Dall-E 2는 나오자마자 미술, 패션, 건축, 마케팅에 이르기까지 전 산업계에 걸쳐 혁신성을 폭발시켰습니다. 영어로 텍스트(Prompt)를 입력하거나 이미지 파일을 삽입하면 인공지능이 알아서 그림을 생성해 줍니다. 

 

다만 이용자 사용성에는 제한이 있습니다. 초대장을 받고 회원이 되면 최초 50 크레딧을 제공하며, 이미지 생성 또는 수정 시에 1크레딧이 소모됩니다. 2023년 15$로 115 크레딧을 구매할 수 있는데, 현재 한국에서는 개인이 아닌 기업만이 크레딧을 구매할 수 있게 되어 있습니다. 

Prompt Engineer가 등장할 정도로 프롬프트 입력의 숙련도에 따라 생성 이미지 품질이 많이 달라집니다.

 

 


이미지출처] MIDJOURNEY

 

디스코드에서 이뤄지는 이미지 생성 파티, 미드저니


‘미드저니’는 인공지능연구소의 이름이자 해당 연구소에서 개발한 인공지능 소프트웨어의 이름이기도 합니다. 영어로 텍스트를 입력하거나 이미지 파일을 삽입하면 인공지능이 알아서 그림을 생성해 주는 게 DALL-E와 비슷합니다. 2022년 7월 12일 오픈베타 출시하였습니다.

 

사용하기 위해서는 회원가입이 필요하며, 이는 Midjourney 디스코드 서버에서 이루어집니다. 무료로 25번의 이미지 생성이 가능하지만 그 이상 생성하려면 유료구독을 해야 합니다.

 

기본적으로는 디스코드 공개방에서 작업물을 생성하게 되는데, 내가 작업한 것을 누구든 볼 수 있고, 반대로 다른 사람의 생성물을 누구나 다운로드 할 수 있습니다. 내 작업물이 노출되기를 원치 않으면 엔터프라이즈 플랜을 이용하거나, 내 서버에 Bot을 초대해 이미지를 생성하는 방법이 있습니다. 다른 그림 인공지능들과는 달리, 스탠다드 플랜 이상의 요금제만 결제하면 무한정 사용할 수 있습니다. 

 

2022년 미국 콜로라도주립박람회미술대회 디지털아트 부문에 ‘제이슨 앨런’이 미드저니를 통해 생성한 '스페이스 오페라 극장'을 출품하고 1등을 차지해 크게 주목받았습니다.

 

 


이미지출처] CHATGPT

 

혁신의 아이콘이자 Gen AI의 대명사 ChatGPT


OpenAI는 거대한 두 개의 AI로 주목을 받고 있습니다. 하나가 Dall-E라면 다른 하나는 ChatGPT입니다. 더 주목을 받는 쪽은 범용성이 높은 ChatGPT입니다. 누가 뭐라 해도 부정할 수 없는 초거대 AI의 대명사이지요. 

 

OpenAI는 2022년 11월 초거대 언어 AI인 ChatGPT(3.5 버전)를 처음 선보입니다. 반응은 폭발적이었습니다. 단순한 대답을 넘어 창작의 영역을 넘보기까지 했으니까요. 단순 정보 파악을 넘어, ‘시 창작’, ‘소설 창작’과 같은 명령어에도 대응했고, 표를 짜거나 엑셀과 같은 업무용 툴의 기능까지 포괄하고 있습니다. 프로그래밍 코드 짜기에도 활용 가능합니다. 

 

덕분에 논문 대필과 과제 수행의 우려가 따라 붙었지만, 한편으로는 생산성의 혁신을 요약해 보여주는 단면이라고 할 수도 있습니다. 2023년 3월 14일, OpenAI의 최신 언어모델인 GPT-4가 출시되었으며, 현재 ChatGPT Plus 가입자만 사용할 수 있습니다. 이어 3월 23일에는 ChatGPT plugins가 공개돼 웹 브라우징, 코드 해석 등 OpenAI 자체 플러그인과 Wolfram Alpha, Zaiper, OpenTable 등 타사의 외부 플러그인이 적용되었습니다. 

 

 


이미지출처] BARD

 

신흥 강자의 반란을 잠재우려는 기성 강자의 재반란, Bard


Bard는 구글의 대형 언어 모델(LLM)인 LaMDA와 PaLM을 기반으로 하는 인공지능 검색 엔진 서비스로, 2023년 3월 21일에 미국과 영국을 대상으로, 영어 버전으로 베타 테스트를 시작했고, 2023년 5월 15일부터는 PaLM 2 언어 모델을 탑재하고 한국어와 일본어를 추가해 전세계 180개국에서 세 가지 언어로 이용할 수 있는 안정화 버전을 출시했습니다.

 

이름도 알지 못했던 OpenAI에서 등장시킨 ChatGPT에 술렁이는 AI 시장에서 구글이 늦은 건 사실입니다. 잃을 게 없었던 OpenAI와 달리 구글은 내놓는 서비스가 실패할 경우 타격이 크기 때문에 검증에 검증을 거치고 사업성까지 고려해야 했기 때문입니다. 

 

2023년 2월 8일 구글이 ChatGPT의 대항마로 Bard를 깜짝 선보였는데, 이때 Bard가 내놓은 오답 때문에 주가가 급락하여 150조원이 증발한 사건도 있었습니다. 하지만 강자의 저력이 한번의 실패로 쉽게 막을 내릴 것 같지는 않습니다. 기술과 자본을 토대로 Bard는 꾸준히 성장 중입니다.

 

구글의 서비스인 만큼 다른 구글 서비스와의 접근성이 높은 것이 강점입니다. 구글 독스, Gmail, 구글 스프레드시트로 내보낼 수가 있으며, Python 언어와 관련한 답변에서는 Colab으로 코드를 바로 내보낼 수 있습니다.