본문 바로가기
인공지능

멀티모달(Multi-Modal) AI '엑사원' 기반 가상인간 아티스트 '틸다'

by 위드웨이브2 2023. 2. 6.

국내 멀티모달은 '엑스원'이 3000억 개의 파라미터(매개변수) 보유해 국내 최고 수준입니다. 이는 최근 핫이슈가 되고 있는 쳇 GPT 3 보다 많고 네이버 하이퍼클라바 보다 많은 수준입니다. 이러한 멀티모달 엑스원과 '틸다'에 대해 살펴보겠습니다.

 

 

 

◆ 엑스원 기반 아티스트 '틸다'

 

1.LG AI 연구원  '엑스원'

 

LG AI 연구원의 초거대 AI '엑사원'은 국내 유일한 멀티모달 AI로 3000억 개 이상의 파라미터(매개변수)를 갖추었습니다. 엑사원은 기존 AI 언어모델이 수행하는 작업은 물론 텍스트를 읽고 이미지로 만들거나, 이미지를 보고 텍스트를 만드는 양방향 멀티모달 작업에 능숙하다고 합니다.

 

 

네이버 인공지능(AI) '하이퍼크로바' 파라미터(매개변수): 2040억 개 

 

오픈 AI '쳇 GPT 3' 파라미터(매개변수) : 1750억 개

 

  [ 2023년 초 출시 예정인 GPT 4의 파라미터 예상 : 100조 개 예상]

 

 

파라미터는 인간 뇌의 '시냅스'(신경세포 접합부) 역할을 하는데요 많으면 많을수록 성능 좋다고 합니다.

 

 

특히 학습하지 않은 이미지가 주어져도 기존 학습 데이터를 기반으로 AI가 내용을 유추해 문장으로 표현할 수 있다고 합니다.

 

또한 엑스원은 전문용어와 그래프, 그림, 등이 포함된 논문의 핵심정보를 추출하고 분석하는 등의 역할에도 투입되고 있다고 합니다

 

 

2. 가상인간 아티스트 '틸다'

 

가상인간아티스트틸다
틸다

 

 

엑스원을 기반으로 만들어진 AI '틸다' 또한 기존에 학습한 데이터를 활용하는 방식으로 인간 디자이너와 협업해 2022년  뉴욕패션위크에서 '금성에 핀 꽃'을 주제로 다양한 의상 작품을 선보였다고 하는데요.

 

 

틸다가 만든 3000여 개의 이미지와 패턴을 바탕으로 200여 개의 의상이 제작되었다고 하는데요. 언어를 기반으로 하는 초거대 AI 가 칼럼, 소설뿐 아니라 시각분야로 창작 범위를 확대한 첫 사례로 의미가 있다고 합니다.

 

 

틸다는 엑사원을 기반으로 세계 최대 수준의 말뭉치 6000억 개 이상 텍스트와 결합된 고해상도 이미지 2억 5000만 장 이상의 데이터를 학습했다고 LG AI 연구원에서는 설명하고 있습니다.

 

 

 

 

 

 

 

 

 

댓글