Dall-E 3 업데이트된 빙챗 AI 이미지 생성기 사용하는 방법
Bing Chat 이미지 생성기
You can now use the DALL-E 3 AI image generator inside Bing Chat (msn.com)
Bing Chat에 GPT-4가 업데이트되었고, 최근에는 Dall-E의 새로운 버전 3가 이미지 생성기에 추가되었습니다. 게다가 Bing Chat에서 이미지 생성기를 사용할 수 있게 되어서 편의성 면에서 어느 이미지 생성기보다 훨씬 간편해졌습니다. 제가 지시를 하면, 챗 AI가 텍스트를 바탕으로 알아서 태그를 가공해서, 이미지 생성기를 사용하여 이미지를 저에게 보여주는 방식입니다.
Dall-E 2버전도 나름 나쁘진 않았지만, SD XL이나 미드 저니에 비해서 약간 부족한 모습을 보여왔습니다. 그러나 이번에 Dall-E 3버전은 굉장히 강화되었습니다. 특히 텍스트를 매우 잘 그려주고, 다양한 아트 스타일을 소화할 수 있습니다. 그리고 완벽하진 않지만 손가락 표현력이 볼만하게 좋아졌습니다.
다만 Bing 계정마다 순차 적용이라서 Dall-E 2가 적용돼있는 계정이 있을 수 있는데, 확인하는 방법은 매우 쉽습니다.
일단 아무 글자나 쓰게 해서, 글자가 제대로 나온다면 Dall-E 3버전입니다. 3버전에서 텍스트 그려주는 기능이 강화되었기 때문이죠.
Bing Chat 이미지 생성기 사용 방법
한글이 인식되기 때문에 어렵진 않습니다. [~~을 해서 ~~으로 그려줘.], [~~를 만들어줘]등 그림을 그려달라는 식으로 말하면 알아서 이미지 생성기를 실행하여서 만들어줍니다.
그림의 표현력이 굉장히 좋아졌습니다. 태그 몇 개 안 썼음에도 고퀄리티의 이미지가 나옵니다. 손가락도 완벽하진 않지만 볼만하게 나왔고요. 운이 좋다면 멀쩡한 5 손가락을 얻을 수 있습니다. 이미지 생성은 대략 10초 정도 소요됩니다.
생성된 그림을 보면 텍스트가 이상하긴 하지만 읽히긴 읽힙니다. 로고도 어느 정도 그려주고요. 그러나 정면에 메인이 되는 피사체는 괜찮지만, 뒤에 그리고 작게 그려진 이미지는 글자도 그렇고 이미지 자체도 많이 망가집니다.
보통은 수정 및 새로 그리려면 새로고침하든 새 대화창을 열었겠지만, 수정 지시도 채팅으로 하면 해줍니다. 물론 지시를 제대로 해줘야 원하는 대로 그려줍니다.
아무리 버전이 업데이트 됐다하더라도 대부분 그림에 문제가 있는데, 왜 방망이랑 글러브랑 같이 사용하죠? 게다가 새는 왜 나오는 겁니까. AI 그림 생성의 문제가 이러한 상식이 없다는 것 때문입니다.
이번엔 약간 복잡하고 큰 변경을 시도했습니다. 제가 원하는 대로 제대로 먹힌 듯하네요. 그러나 작은 글자는 뭉개지고, 태그를 있는 그대로 받아들이다 보니 영화 촬영장이 되어버렸습니다.
Bing 챗 AI 이미지 생성기 문제점, 단점
GPT-4 기반 Bing Chat의 이미지 생성기에 크고 자잘한 문제들이 있습니다. 생각해 보면 2개의 AI(챗, 이미지)를 사용하는 셈이라 GPT-4여도 이미지 생성기가 멍청하면 챗 기능이 아무리 똑똑해봐야 소용이 없거든요.
1번째로 작은 글자는 여전히 망가진다는 것, 큰 글자여도 제대로 그려지지 않을 때도 많다는 문제가 있습니다. 구도는 마음에 드나 글자가 망가지는 등, 대충은 알아볼 수 있으나 실제로 어딘가에서 이미지를 활용하려면 사람의 수정이 필요합니다.
2번째로는 갑자기 검열에 걸린 것도 아닌데 이미지 생성을 거부한다는 것. 이미 그림을 완성했다며 생성을 안 하거나, 말과는 다르게 생성하는 두 가지 경우가 발생합니다. 이러는 경우 어쩔 수 없이 새로고침하든 새 토픽을 열어야 합니다.
주로 별다른 변경 없이 '다시 그려달라'등을 요구하면 이럽니다.
3번째로는 강력한 검열 기능입니다. "여성", "신체 및 피부", "노출과 관련된 장소 및 물건" 키워드 대부분은 검열됩니다. 여러 시도를 해서 생성을 반복 시도하면 1시간 사용 차단 걸리기도 합니다.
이미지 생성 기반으로도 차단하기는 하는데(원래 4개 생성돼야 할게 3개만 표시된다는 등), 키워드 기반이라서 우회할 수 있는 단어가 있다면 생성 가능합니다. 예로 들면, 수영(Swim)가 들어간 키워드는 죄다 차단당하는데 (풀장) Pool을 입력하면 우회되어버립니다. 특히 Anime라는 단어가 들어가면 검열의 폭이 더 넓어집니다.
그래서 무슨 태그가 검열된 건지 알 수도 없습니다. 위에서 언급했듯이 2개의 AI를 사용하는 거라 빙 Chat은 어떤 이미지가 생성됐는지, 무슨 태그가 문제냐고 물어봐도 알지 못합니다. 지금껏 사용해 본 이미지 생성기 중에서 가장 강력하게 검열하는 것으로 보입니다.
4번째로는 Edge 브라우저 및 앱 사용 강요.
모바일에서는 대놓고 '앱' 설치를 강요하고, 데스크톱에서는 "유해 정보 차단 설정"을 핑계로 사용을 거부당합니다. 데스크톱에서 Edge 브라우저에서 마이크로소프트 아이디를 로그인하면 위 경고 창이 사라집니다.(크롬에서 bing 로그인해도 위와 같은 경고 창이 팝업 됩니다.)
다만 "유해 정보 차단 설정"이 한국에서만 무조건 '엄격'으로 고정되기 때문에 이건 한국 정책 문제 일 수 있습니다.
5번째로 사용 횟수 제한이 있습니다. 사실 이건 단점은 아닙니다. 왜냐하면 대충 하루에 100회 정도이고, 100회 초과하면 생성에 10초 걸리던 게 약간 밀릴 뿐이지 생성이 안되는 건 아닙니다. 물론 우선순위에서 제외되는 방식이라 생성하는 사용자가 많다면 더 오래 걸리겠죠.
어쨌든, 100회 사용해도 그 이상 생성 가능합니다.
마지막으로, 생각보다 낮은 해상도입니다. 1024x1024px 고정으로 이미지가 생성됩니다. 그래서 이 작은 캔버스 크기에 인물의 전신 혹은 많은 물건을 묘사하게 하면 자연스레 피사체가 작아지고, 디테일이 낮아집니다. 위 그림도 자세하게 살펴보면, 손가락이 망가지고, 세부 디테일이 뭉개지는 것을 볼 수 있습니다. 특히, 가로나 세로로 긴 그림을 그리고 싶어도 선택권이 없습니다.
결론
빙 이미지 생성기는 성능이 굉장히 뛰어납니다. Dall-E를 그대로 가져와 쓰기 때문이죠. 게다가 빙 챗은 GPT-4 기반이라서 한글을 정말 잘 알아먹습니다.
물론 스테이블 디퓨전에다가 좋은 모델과 온갖 튜닝을 해서 사용하면 이것보다 훨씬 잘 나오지만, 이건 무료인데다가 사용자 컴퓨터 리소스를 먹지 않습니다. 별도의 로라 등 가중치 설정도 없고요. 그래서 세부적인 설정은 불가하지만 기본적인 퀄리티와 완성도가 매우 높아서 가볍게 사용하기 좋습니다.
엣지 브라우저는 어차피 윈도우에 기본적으로 설치되어 있고, 마이크로소프트 아이디는 윈도우 설치하면 대부분 가입하기 때문에 하나쯤은 있습니다. 그리 어려운 조건을 요구하는 것은 아니기 때문에 사용해 보기 쉽습니다.
잘 나온 빙 AI 생성 이미지 몇 장
Ray tracing, Neon, Rim light, Subface Scattering등 그래픽 용어를 사용하면 좀 더 좋은 이미지를 뽑아낼 수 있습니다.