Inside Global Enterprises

오픈에이아이(OpenAI) 기업의 핵심 기술 (2) - DALL - E

☆Q|☞㉾㉿㏘ sign☆ 2023. 4. 23.

이번에는 '오픈에이아이(OpenAI)' 기업의 또 다른 핵심 기술인 'DALL-E'에 대해서 함께 알아봅시다.

 

OpenAI이미지, 사진출처:  Unsplash 의 Zac Wolff


저번 포스팅에서 언급했듯이 '오픈에이아이(OpenAI)' 기업이 핵심적으로 발전시키고 있는 기술이 바로 AI 플랫폼이고, 

현재 GPT(Generative Pre-trained Transformer), DALL-E, Codex, OpenAI GYM, 로보틱스 등을 개발했습니다.
그중에서 저번 포스팅에서 핵심적으로 다룬 내용은 바로 GPT 시리즈 기술이었습니다.

이번 포스팅에서는 저번 포스팅의 주제를 연달아

 

픈에이아이(OpenAI) 기업의 또 다른 핵심 기술 DALL-E 에 대해서 함께 알아보도록 합시다.

 

 

DALL - E 란 무엇일까?

DALL-E는 '오픈에이아이(OpenAI)' 기업에서 2021년 1월 5일에 출시한 서비스입니다. 
해당 서비스는  생산형 이미지 인공지능 서비스로 우리가 평상시에 사용하고 있는 자연어를 기반으로 디지털 이미지를 합성하여 생산하는 인공 지능 언어 모델입니다.

 

DALL-E 명칭의 의미

 

'DALL-E'라는 명칭은 예술가 살바도르 달리(Salvador Dali)와 애니메이션 캐릭터 월-E(Wall-E)의 합성어로 이루어졌습니다.
해당하는 예술가 살바도르 달리와 캐릭터 윌에 대해서 알아보면, 우리는 DALL-E라는 모델의 역할 이해가 더 쉬울 것 같습니다.
예술가 '살바도르 달리'는 상상력이 굉장히 풍부하고 파격적인 작품을 선보이는 것으로 굉장히 유명한 스페인의 초현실주의 예술가였습니다.
그리고 '월-E'라는 영화의 주인공인 월-E는 호기심이 많고, 모험심이 강한 창의적인 로봇이라는 캐릭터성을 지니고 제작된 애니메이션 영화의 가상 캐릭터입니다.


해당 모델의 이름이 DALL-E가 된 것은 바로 해당 모델의 상상력과 창의성을 잘 보여주기 위한 선택이지 않았을까 싶습니다. 

기존에 존재했던 다른 AI 이미지 생성 모델에서 일반적으로 가능했던 이미지 생성 그 이상의 능력을 보유하고 있기 때문입니다.
DALL-E는 매우 창의적이고, 상상력이 풍부한 이미지를 생성하는 모델로서의 역할을 충실히 수행하고 있는 서비스입니다.
따라서, 틀에 얽매이지 않는 생각과 호기심이라는 감정적 요소들을 잘 보여주고자 하는 해당 서비스의 목적성이 충실히 반영된 명칭 설정이 아닌가 생각합니다.

 

DALL-E 시리즈에 대한 이해 


이렇게 훌륭한 서비스를 제공하기 위해서 DALL-E를 학습시키는데에 필요한 데이터는 약 2500만 개의 텍스트와 이미지 쌍이라고 합니다. 
이는 단순한 이미지 뿐만이 아니라 이를 설명한 텍스트까지 함께 존재해야 하기 때문에 이렇게 쌍으로 구축되어 있는 데이터들을 수집하는 것도 쉽지는 않았을 것 같습니다. 

DALL-E의 최종 모델은 약 120억 파라미터를 가지고 있는 아주 큰 모델입니다.
위에서 언급했듯이 DALL-E는 방대한 이미지 데이터 세트와 해당 텍스트 설명에 대해 훈련된 생성 신경망을 사용합니다. 
이러한 훈련된 생성 신경망을 통해서 DALL-E는 텍스트와 시각적 콘텐츠 간의 관계에 대한 연결성을 이해하고, 제공된 설명을 정확하게 나타내는 이미지를 생성할 수 있게 되었습니다.

여기서 'DALL-E'라는 모델이 지닌 고유한 기능 중 하나는 다른 이미지 생성 AI 모델에서 일반적으로 가능한 것 이상으로 매우 복잡하고 창의적인 이미지를 생성하는 기능을 수행할 수 있다는 점입니다. 예를 들어 DALL-E는 현실 세계에 실제로 존재하고 있지 않은 환상적이고도 초현실적인 공간, 장면, 생명체 등의 이미지들을 생성할 수 있습니다. 
즉, 세상에 부재했던 컨셉들을 만들어 낼 수 있다는 점을 고려하면, 인간의 전유물이었던 '창의력'을 AI가 드디어 뛰어넘을 수도 있다는, 아니 어쩌면 이미 뛰어넘고 있다는 기대감과 불안감이 동시에 드는 것 같습니다.

그리고, 2022년 4월 6일 'DALL-E 2'가 공개되었습니다.
DALL-E 2는 세상에 나오자마자 미술, 패션, 건축, 마케팅에 이르기까지 전 업계에 걸쳐 혁신성을 폭발시켰습니다.
처음 그림 인공지능의 시대를 연 인공지능 모델은 뮌헨 대학교의 Stable Diffusion 기술이었습니다.
하지만, 다른 측면으로 보았을 때, AI 그림 관련 기술발전이 더 좋은 방향성을 나아가는데 촉진제의 역할을 충실히 수행하는 데 기여했다고 볼 수 있으며, 여전히 그 위력을 발휘하는 중입니다. 

MIT 테크놀로지 리뷰에 대해서 언급해 보고자 합니다.
MIT 테크놀로지 리뷰에서는 '오픈에이아이(OpenAI)'의 CEO 올트먼이 'DALL-E 2'에서 무엇을 배웠는지를 주제로 인터뷰를 진행했습니다. 
그는 “DALL-E 2로부터 AI의 향후 10년의 미래에 대한 중요한 교훈을 얻었다”라고 말했습니다.
이는 'DALL-E 2'의 혁신적인 기술력을 인정하는 말이기도 하며, 앞으로 다가올 미래에는 해당 기술력들이 더 상용화되고, 훨씬 더 진보된 방향으로 나아갈 것임을 짐작할 수 있는 말입니다.
실제로, 'DALL-E'와 'DALL-E 2' 사이의 공백은 약 1년 정도 밖에 되지 않았습니다.
그러나, 'DALL·E 2'는 전작보다 화질이 4배나 상승했으며, 그림은 훨씬 더 정교해졌습니다. 
뿐만 아니라 그외에도 추가된 기능이 있는데, 이미지를 편집하거나 이미지를 삽입해서 그 이미지를 변형한 이미지들을 출력하는 기능도 생성되었습니다.
또한, 텍스트 뒤에 특정조건을 입력하여 화풍도 변화시킬 수 있으며, 조건을 통해 그림이 정교해지기도 합니다.

 

 

 

DALL-E의 미래 전망에 대한 예측

 

 

디지털 이미지, 사진출처:  Unsplash 의 Li Zhang

 

 

이러한 '텍스트 투 이미지'를 흥미로운 방식으로 풀어낸  'DALL-E'는 앞으로도 다방면에서 이용될 것이라 짐작됩니다.
아무래도 이미지이다 보니까 예술, 디자인 및 광고와 같은 분야에서 수많은 응용 프로그램이 생성될 가능성이 있으며, 참신하고 상상력이 풍부한 콘텐츠를 만드는 AI의 잠재력을 보여준다는 점에서 사람들에게 시사하는 바도 굉장히 클 것 같습니다.
그리고 온라인이라는 플랫폼을 통해서 많은 사람들이 굉장히 쉽게 원하는 느낌의 다양한 이미지들을 직접 볼 수 있다는 점에서도 좋은 서비스라고 생각합니다.

 

인간의 상상력은 많은 걸 보고 느낄수록 그 효율이 커진다고 생각합니다.
평소에는 쉽게 그러한 것들을 접하기 어려웠지만, 'DALL-E'라는 모델을 통해서 현실을 넘어 초현실적인 것들까지 그리고 꿈꿔오던 나만의 느낌에 대한 이미지를 직접 실제로 표현해 준다는 점이 굉장히 매력적으로 다가오는 것 같습니다.
아마 많은 분들이 해당 이미지를 직접 사용하는 것을 넘어서 해당 이미지들을 통해 스스로의 창의력 향상에도 큰 도움을 받을 수 있지 않을까? 조심스레 예측해봅니다.

다음 포스팅에서는 이번 포스팅과 마찬가지로 '오픈에이아이(OpenAI)' 기업의 또 다른 핵심 기술들에 대해서 함께 알아보는 시간을 갖도록 하겠습니다.

 

댓글

💲 추천 글