오픈AI, GPT-4o 이미지 생성 기능 대규모 업그레이드

주차장을 급히 걷던 칼 마르크스가 뒤를 힐끗 보며 당황한 표정으로 파파라치를 피하는 장면(GPT-4o로 생성한 이미지)./ 오픈AI

오픈AI가 'GPT-4o'의 이미지 생성 기능에 대한 대규모 업그레이드를 단행했다.

오픈AI는 25일(현지 시간) "가장 진보된 이미지 생성기를 GPT-4o에 탑재했다"면서 "GPT-4o는 텍스트를 정확하게 표현하고, 입력된 명령어를 충실하게 따르며, 업로드된 이미지를 변환하거나 시각적 영감으로 사용하는 등 AI(인공지능) 모델 고유의 지식과 채팅 문맥을 활용해 사용자가 원하는 이미지를 정확히 만들어 낼 수 있다"고 밝혔다.

오픈AI는 "오늘날의 생성형 AI 모델들은 환상적이고 감각적인 장면을 만들어내긴 하지만, 정보를 전달하거나 실용적인 이미지를 제대로 다루지 못한다"며 "로고나 다이어그램처럼 기호와 언어를 결합한 이미지는 의미를 정확히 전달할 수 있어야 한다"고 설명했다.

오픈AI에 따르면, GPT-4o는 인터넷상의 이미지와 텍스트가 결합된 구조를 학습해 이미지와 언어 간 관계뿐만 아니라 이미지들 사이의 관계를 이해할 수 있다. 사후 훈련 강화로 시각적 유창성을 갖게 됐고, 일관성 있게 문맥을 이해해 이미지를 생성하는 것도 가능해졌다.

GPT-4o는 ▲텍스트 표현 ▲다중 회차 이미지 생성 ▲지시사항 이행 ▲문맥 학습 ▲세계 지식과 연결된 이미지 생성 ▲사실감과 스타일 구현 능력이 탁월하다고 오픈AI는 주장했다.

오픈AI는 "GPT-4o는 적재적소에 몇 단어를 추가하는 것만으로도 원하는 이미지를 구현해 낸다"며 "정확한 기호와 이미지를 융합시켜 이미지 생성을 시각적 커뮤니케이션을 위한 도구로 전환시킨다"고 강조했다.

GPT-4o에 이미지 생성이 기본 기능으로 탑재됨에 따라 사용자는 AI 챗봇과 자연스럽게 대화를 나누며 이미지의 세부 요소들을 계속해서 수정해 나갈 수 있다. 게임 캐릭터를 디자인하는 경우 이미지를 여러 번 조정해도 외형이 일관성 있게 유지된다.

또 기존 AI 모델들은 5~8개 객체에서 한계를 드러내지만, GPT-4o는 10~20개 객체를 처리할 수 있다. 사용자가 업로드한 이미지를 분석해 세부 정보를 통합한 이미지 생성도 가능하며, 텍스트와 이미지 사이의 지식을 연계해서 더 효율적으로 이미지를 만들어낼 수 있다. 다양한 이미지 스타일을 반영한 데이터를 학습해 현실감 있는 이미지나, 특정 스타일의 이미지 생성도 가능하다.

모든 생성 이미지에는 GPT-4o를 활용해 만들었다는 사실을 알리는 C2PA 메타 데이터가 포함돼 이미지 출처를 확인할 수 있다. GPT-4o 이미지 생성 기능은 이날부터 챗GPT의 플러스, 프로, 팀, 무료 사용자에게 기본 이미지 생성기로 제공된다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

플러스

독자서비스

포럼＆컨퍼런스

오픈AI, GPT-4o 이미지 생성 기능 대규모 업그레이드

기사이력코드