본문 바로가기
IT 및 모바일 기기/IT 소식

그림 그리는 AI를 상업 목적에 사용하기 어려운 이유에 대한 개인적인 생각

by Stadrem 2022. 10. 13.
반응형

https://novelai.net/

 

NovelAI - The GPT-powered AI Storyteller

With a glazed stare, you watch and ponder what you see in the orb: random images from all around the world. You gaze into the globe and contemplate what these images mean to you. A forest, an ocean, a desert, a mountain range... you spend countless hours s

novelai.net

https://www.midjourney.com/home/

 

Midjourney

An independent research lab exploring new mediums of thought and expanding the imaginative powers of the human species.

www.midjourney.com


  노벨 AI만이 아닌 미드저니, 달리 E 같은 AI 그림 툴 등의 공통점입니다. 단순 저작권 문제가 아니라 현재(2022년) 등장한 AI 그림 툴들의 한계에 대한 제 개인적인 생각일 뿐이고 이 포스팅 이후에 어떤 기술이 개발될지 저는 모릅니다. AI 그림 툴이 작년에 나온 달리 E 이후로 미드저니 -> 스테이블 디퓨전 -> 노벨 AI 순으로 화제를 끌었고 이후에 또 다른 그림 AI 툴이 나올 수 있습니다.

  아래 예시들이 Novel AI들뿐인데 아무래도 본격적인 AI 그림 상업화 시도가 보이던 것이 노벨 AI부터 시작된 것으로 보고 있어서입니다.


이유 1: 정적인 자세

좌: 역동적이라면 역동적일 수 있는 포즈 / 중: 구도는 좋으나 그림이 망가진다. / 우: 다이내믹 킥을 입력했더니 손이 발이 됐다.

  역동적인 포즈를 표현하기 힘듭니다. 프롬프트에서 제시된 움직임이 과할수록 그림이 망가집니다. 사용해 보시면 알겠지만 단일 액션신도 알아듣질 않는데 다수가 등장하는 액션신은 원하는 구도를 더더욱 뽑기 힘듭니다. 개인적으로 추측하기로는 그림 학습할 때 동작에 대한 키워드가 부족했거나 없었지 않나 싶습니다.


이유 2. 학습된 결과물에 특화됨

좌: 어딜 봐서 토끼 다리..? / 우: 잘생기고 늠름한 노년의 마법사를 원했지만 덤블도어만 나온다.

  사전에 학습된 베리에이션만 뽑아냅니다. 개발자가 끊임없이 계속해서 학습 시키지 않는 이상 새로운 무언가를 만들 수 없습니다.

  예로, "토끼 다리(역관절)", "사자 귀""사슴 꼬리"가 달린 여자를 그리고 싶으나 오직 Bunny라는 키워드에 꽂혀서 바니걸만 나오고, 특히 학습된 자료가 별로 없어 보이는 노인 키워드, 내가 원하던 것은 그레이 메인(월드 오브 워크래프트) 같은 분류를 원했으나 뽑아내는 건 간달프나 덤블도어 페이스. 아마도 위자드 키워드와 조합되면서 생긴 문제가 아닌가 싶은데 이렇다면 키워드 간에 획일화된 스타일만 나온다는 뜻.

  이런 의미에서 다양한 특징을 가진 캐릭터는 표현하기 힘들 것으로 봅니다. 시도해 봤지만 실패한 키워드 중에는 머리에 햄버거 모자를 쓰고 있는 소녀 등.


이유 3. 편집 불가능한 JPG/PNG

개인 드로잉 연습작

  편집 불가능한 JPG/PNG. 아트 직종에 일해봤거나 협업해 본 사람들은 알겠지만 아트 계열은 수정이 잦습니다. 그래서 PSD 등에서 파트별 컬러를 레이어로 분류하고 수정하는 게 작업자 입장에서 훨씬 편하고 베리에이션 뽑기에 합리적인데 현재 AI 그림툴은 그러한 기능이 없습니다.

  오직 AI를 믿어야 하고, 완성본만 뽑아내기에 해당 jpg 파일을 수정할 때 꽤나 고생하게 됩니다. 물론 위에 덧그리면 된다지만, 비효율적.


이유 4. 다수를 그리기 힘듦

좌: 기사와 고블린의 싸움을 원했는데 투구를 고블린이 가져가버렸다. / 우: 영웅의 귀환을 원했지만 사람들의 시선 처리도 이상하고 얼굴이 다 뭉개졌다.

  다수를 그리는 것에 너무 약합니다. 차라리 관중의 얼굴을 달걀귀신처럼 처리하는 게 나을 텐데 굳이 그려내려고 노력해서 ㄱ- 같은 얼굴이나 일그러진 얼굴이 됩니다.

  특히 전신을 잘 못 그리는 것이 더 두드러지게 되는데 몸의 일부가 사라지거나 꼬이는 현상이 매우 높게 발생합니다.


이유 5. 그림체 고정의 어려움

  그림체 고정을 못합니다. 최대한 특색 있게 프롬프트를 짜놔도 100% 동일한 캐릭터가 나오지 않습니다. 옷과 장식은 그렇다 쳐도, 애니메 캐릭터는 얼굴의 형태, 눈매가 가장 중요하면 이것들이 이미지 생성할 때마다 다르게 나옵니다. 결국 원하는 것을 얻을 때까지 무작위 확률에 의존하여 많은 시도가 필요하거나 엇비슷한 80~90% 선에서 만족해야 합니다.


이유 6: 엇비슷한 그림이 나오는 문제

  동일 시드에서 비슷한 프롬프트 구성에서 조금씩 변경하니 동일한 자세, 엇비슷한 캐릭터가 나온다. 아마도 AI 그림계내에서도 표절 논란이 불거질 것으로 봅니다. 물론 확률은 극히 낮으나 사용자가 늘어날수록 시드가 겹칠 확률도 늘어나고 아무래도 동일 플랫폼 내에서는 사용되는 키워드가 비슷해질 우려가 있습니다. 시드가 동일하고 프롬프트가 다르면 구도나 자세 등이 비슷하게 나오고 시드, 프롬프트가 동일하다면 100% 똑같은 이미지가 나옵니다.


이유 7. 손발

  손 발의 퀄리티. 육손 나오는 건 애교이고 팔다리가 붙어있거나, 괴력몬마냥 등에 팔이 붙는 경우, 두세 사람의 몸이 엉켜있는 경우가 매우 많습니다. 기술이 발전되고 학습이 좀 더 전문화되면 해결할 수 있을 문제이긴 하나 미드저니, 스테이블디퓨전 계통 전부다 동일한 문제가 발생 중이라 시간은 좀 걸릴 듯합니다.


이유 8. 제한된 해상도

  제한된 해상도로 인해 뭉개지는 세부 퀄리티 (최대 1000px 내외). 노벨 AI는 물론이고 다른 미드저니, 달리도 1000px 내외에서 처리됩니다. 스테이블 디퓨전을 개인 PC(GPU 8GB RAM)로 돌리게 되면 대부분 512px로 뽑아내게 되고요.

  이유는 해상도가 높을수록 데이터의 처리량이 기하급수적으로 높아지기에 자원 소모가 심해져 서버 측의 부담이 커져서 다량의 사용자를 확보하기 힘들기 때문입니다. 해상도가 더 높은 이미지를 뽑아낼 수 있다면 디테일의 문제 등이 해결될 수 있지만 현재 하드웨어 성능상 무리로 보입니다.


이유 9. 획일화된 그림

좌: 디즈니 화풍 / 우: 미국 SD 카툰체를 입력했지만 결과물들은...

  그림체를 따라 할 뿐, 창조하지 못합니다. 특색 있는 그림체로 유명한 예가 디즈니, 김형태, 흑요석, 트리거사등등인데 노벨 AI 같은 경우 해당 키워드가 학습이 안됐는지 알아먹질 못합니다.

  현재 AI 기술 한계상 미리 학습된 것에서 따라 할 뿐, 주도적으로 창조할 능력이 되지 않습니다. 울트론 마냥 실시간으로 학습하는 초월적인 기술을 지닌 것도 아니고 미리 학습된 수 GB 파일에서 데이터를 뽑아내서 그리는 것이니 학습된 시점에 머물러 있을 뿐입니다.

  특히나 노벨 AI는 일본계의 아트들을 집중적으로 학습했기에 그 외 아트 스타일은 극히 일부를 제외하고는 표현하지 못합니다.


이유 10. 디테일의 부족함

  디테일함의 부족함, 뭔가 그리려고 노력했지만 블러 먹인 거처럼 뭉개져있어서 덩어리 구분이 안됩니다. 사실 해상도가 낮다 보니 AI가 그림을 그릴 공간이 부족한 탓에 생기는 문제라고 생각하지만 세부 디테일이 중요시되는 컨셉아트의 경우 꽤 치명적인 문제라서 사용하기 힘들어 보입니다.

  컨셉 아트 외에 다른 쪽으로 본다면 일반적인 소설 삽화 정도 퀄리티는 문제없어 보입니다.


이유 11. AI 티 나는 그림

  뭐라 말은 못 하겠지만 AI 그림이라는 것이 티가 납니다.

  공통적으로 티가 나는 부분이 있는데, 뭉개진 손과 발과 장신구, 일그러진 몸체, 밋밋한 눈동자, 평이한 그림체, 정적인 자세, 낮은 해상도, (팬아트 일시) 따라 하려 노력했지만 세부적으로 전혀 닮지 않은 외모가 있습니다. 픽시브 등에서 캐릭터 팬아트랍시고 AI 그림들을 올리던데 컬러만 비슷하지 아마추어가 그린 거보다 훨씬 더 포인트를 못 잡아냅니다.


이유 12. 거부감

  일러스트 커뮤니티로 유명한 픽시브에는 NovelAI 키워드로 벌써 5,000개가 넘는 일러스트가 업로드되었습니다. 그와 더불어 AI 그림 커미션을 시도하는 사람들도 꽤나 늘었고요. 그러나 사람들의 반응은 냉담합니다. AI 그림으로 장당 몇만 원을 받아먹으려는 사람도 있고 본업이 아티스트임에도 불구하고 결과물을 AI 그림으로 속여서 보내줘서 분쟁이 생긴 경우도 발생했습니다.

  똥 손이었지만 그림을 그리고 싶었던 사람들은 환호하지만, 그림을 소비하는 사람들의 반응은 영 좋지 않기에 AI 그림 시장이 제대로 굴러갈지 의문입니다.


  저작권 관련은 법 관련을 모르니 언급하지 않았지만, 학습시키는 과정에서 불특정 다수의 이미지가 사용된 것이 올바른가에 대한 문제이지, 결과물 자체는 새로운 창조물로 봐도 무관하다 봅니다. 이건 AI 그림이 어떻게 생성되는지 기술에 대해 이해하셔야 합니다.

  개인적으로 생각하기엔 그림을 못 그리는 사람들에게 선택지가 주어진 것입니다. 그림에 손도 못 대던 사람들이 그림 시장에 진입함으로써 저점이 높아진 것이죠. 프롬프트를 오지게 잘 넣거나 리터칭을 잘하는 사용자들이 하위층을 대거 점거할 것이고 기존 하위층(커미션 계통)들은 꽤나 고통스러울 거라 생각합니다.

  그렇지만 기존 프로급들의 아티스트들에게는 별다른 문제가 되지 않을 것으로 봅니다. 특유의 발상력이나 디자인, 디테일 작업등은 근 시일 내에 AI가 따라잡긴 힘들 거라 봅니다.

결론은 수준 이하의 아티스트들은 AI 그림에게 밀려나거나, 역으로 AI 그림을 활용하는 입장이 될 것입니다.

  여담으로 3D 모델러의 입장에서 상급자가 AI 컨셉아트 1장을 던져주고 모델링 하라고 하면 꽤나 골치 아플 듯 합니다. 왜냐하면 일단 디테일이 떨어지기에 대다수 작업을 모델러가 알아서 해야 할 것이고 치명적인 것은 그림의 의도에 대해 질문할 사람이 없다는 것. 물론 퀄리티가 좋다면야 상관없지만 지금 수준이라면 그다지 내키지 않네요.

  아마 아래 3가지 정도 개선된다면 AI 그림이 확실히 위협으로 다가올 것이라고 봅니다.

  1: 그림체를 창조 (현재 약 인공지능 수준에서 어려울 거 같네요.)

  2: 그림체와 캐릭터의 특징과 형상을 유지한 채 변형 (가능해진다면 애니메이션 계통이 위협을 받겠네요.)

  3: 특정 부분만 수정 가능하게 (이건 스테이블 디퓨전 계열의 일부 툴에서 이미 지원 중입니다.)

반응형

댓글