본문 바로가기
IT 및 모바일 기기/IT 소식

구글의 동영상 만들어주는 AI Imagen Video에 대한 정보 공개

by Stadrem 2022. 10. 8.
반응형

  공개된 논문

https://imagen.research.google/video/paper.pdf

  며칠 전에 미리 제작된 영상을 프롬프트에 따라서 나열하는 수준의 AI 영상 제작 프로그램을 어디선가 본거 같은데, 구글은 이미 훨씬 앞서나가고 있습니다. 좀 놀랍네요.


  Meta의 Make-A-Video 공개 이후, Google은 텍스트 프롬프트가 주어지면 비디오 클립을 생성할 수 있는 AI 시스템 인 Imagen Video에 대한 정보를 공개했습니다.

  이번에 공개된 Imagen Video는 DALL-E 및 Stable Diffusion에 필적하는 이미지 생성 시스템인 Google의 Imagen 을 기반으로 합니다.

  Imagen Video는 텍스트 프롬프트를 가져와 24x48 픽셀 해상도에서 16프레임, 초당 3프레임 비디오를 생성합니다. 그런 다음 시스템은 추가 프레임을 업 스케일링하고 예측하여 1280×768에서 최종 128프레임, 초당 24프레임 비디오를 생성합니다. 이렇게 생성한 최종 비디오의 길이는 5.3초 입니다.

  Google은 Imagen Video가 1,400만 개의 비디오-텍스트 쌍과 6,000만 개의 이미지-텍스트 쌍뿐만 아니라 공개적으로 사용 가능한 LAION-400M 이미지-텍스트 데이터 세트에 대해 학습했다고 합니다.


  위 영상이 Phenaki로 만든 영상인데 Imagen Video는 품질에 중점을 두었다면, Phenaki는 일관성과 길이를 우선시한다는 것이 구글의 설명입니다.

 

미래 도시의 교통량이 많습니다. 외계인 우주선이 미래 도시에 도착합니다. 카메라는 외계인 우주선 안으로 들어갑니다. 카메라는 파란색 방에 우주 비행사를 보여줄 때까지 앞으로 이동합니다. 우주 비행사가 키보드를 입력하고 있습니다. 카메라가 우주 비행사에게서 멀어집니다. 우주 비행사는 키보드를 떠나 왼쪽으로 걸어갑니다. 우주 비행사는 키보드를 떠나 걸어갑니다. 카메라는 우주 비행사 너머로 이동하여 화면을 봅니다. 우주 비행사 뒤의 화면에는 바다에서 헤엄치는 물고기가 표시됩니다. 파란 물고기로 크래시 줌. 우리는 어두운 바다에서 헤엄치는 푸른 물고기를 따라갑니다. 카메라는 물을 통해 하늘을 가리킵니다. 바다와 미래 도시의 해안선. 미래의 마천루를 향해 크래시 줌. 카메라는 많은 창 중 하나를 확대합니다. 우리는 빈 책상이 있는 사무실에 있습니다. 사자가 사무실 책상 위를 달리고 있습니다. 카메라는 사무실 내부의 사자 얼굴을 확대합니다. 사무실 방에서 검은 양복을 입은 사자를 축소하십시오. 입고 있는 사자가 카메라를 바라보며 미소 짓고 있다. 카메라는 마천루 외부로 천천히 축소됩니다. 현대 도시에서 일몰의 Timelapse입니다.

  라는 프롬프트가 입력되었습니다.

  연구원들은 사전에 필터링 된 자료들로 Imagen Video의 학습 데이터로 사용했지만 Imagen Video에서 그래픽적으로 폭력적이거나 노골적인 클립을 생성할 수 있다는 것에 우려하고 있습니다. 구글은 이러한 우려가 완화될 때까지 Imagen Video 모델이나 소스 코드를 공개하지 않을 것이며 Meta와 달리 어떤 종류의 가입 양식도 제공하지 않을 것이라고 밝혔습니다.

출처 : http://www.aitimes.com/news/articleView.html?idxno=147178

출처 : https://techcrunch.com/2022/10/05/google-answers-metas-video-generating-ai-with-its-own-dubbed-imagen-video/

 

Google answers Meta's video-generating AI with its own, dubbed Imagen Video

Google's Imagen Video model, like Meta's recently detailed Make-A-Video, can generate short looping clips given a text prompt.

techcrunch.com


  다만 영상을 만드는데 소요되는 시간을 공개 안 했다는 점과 Imagen Video은 아직까진 부자연스럽고 이상한 방식으로 왜곡됩니다. 물론 전통적인 방식의 3D 렌더링보다는 소요시간이 길지 않을 거라 보고 있지만 AI 관련 프로그램들이 그렇듯 한 번의 시도만에 원하는 결과물이 나오진 않을 듯합니다. 뉴스 기사를 읽어보면 미드 저니, 달리처럼 이미지를 생성하고 여러 장 이어붙이지만 24x48 픽셀로 매우 작은 크기로 만든 뒤 업 스케일 하는 방식이라 의외로 빠를 거 같기도 합니다. 다만 퀄리티는 위에 영상과 같이 어색하겠지만요.

 

  사족이긴 합니다만 AI 3d 관련 기사도 봤었습니다. 그러나 3d 디자이너 입장에서 그다지 흥미가 가지 않을 정도로 퀄리티가 낮아서 따로 포스팅은 안 했습니다. 다른 분들은 어떻지 모르겠지만 아트 분야 전반적으로 AI 기술들이 투입되고 있다는 것을 저는 긍정적으로 보고 있습니다. 왜냐하면 지금은 DCC 툴, 섭페, 지브러쉬, 섭디, 좀 더 나가면 후디니, 게임엔진 등등 배울게 너무 많습니다.

  그런 의미에서 근 시일 내로 Ai로 대체될만한 건 텍스처 제작 툴 같다고 생각됩니다. 섭페나 섭디같은거요. 몇 주 전쯤에 Seamless 타일 텍스처를 스테이블 디퓨전 기술로 뽑아내는 것을 봤거든요. 아쉽게도 Base Color만 뽑아내고 PBR 텍스처는 뽑아내질 못해서 좀 아쉬웠던 툴이었습니다. 시간이 지나면 금방 해결될 문제겠지요. 다행인 건 폴리곤 모델링은 대체되려면 아직 좀 먼 것 같습니다. AI가 사각 폴리곤을 이쁘게 정리할 줄은 모르는 거 같더라고요.

 

반응형

댓글