오픈AI가 'GPT-4o'의 이미지 생성 기능에 대한 대규모 업그레이드를 단행했다.
오픈AI는 25일(현지 시간) "가장 진보된 이미지 생성기를 GPT-4o에 탑재했다"면서 "GPT-4o는 텍스트를 정확하게 표현하고, 입력된 명령어를 충실하게 따르며, 업로드된 이미지를 변환하거나 시각적 영감으로 사용하는 등 AI(인공지능) 모델 고유의 지식과 채팅 문맥을 활용해 사용자가 원하는 이미지를 정확히 만들어 낼 수 있다"고 밝혔다.
오픈AI는 "오늘날의 생성형 AI 모델들은 환상적이고 감각적인 장면을 만들어내긴 하지만, 정보를 전달하거나 실용적인 이미지를 제대로 다루지 못한다"며 "로고나 다이어그램처럼 기호와 언어를 결합한 이미지는 의미를 정확히 전달할 수 있어야 한다"고 설명했다.
오픈AI에 따르면, GPT-4o는 인터넷상의 이미지와 텍스트가 결합된 구조를 학습해 이미지와 언어 간 관계뿐만 아니라 이미지들 사이의 관계를 이해할 수 있다. 사후 훈련 강화로 시각적 유창성을 갖게 됐고, 일관성 있게 문맥을 이해해 이미지를 생성하는 것도 가능해졌다.
GPT-4o는 ▲텍스트 표현 ▲다중 회차 이미지 생성 ▲지시사항 이행 ▲문맥 학습 ▲세계 지식과 연결된 이미지 생성 ▲사실감과 스타일 구현 능력이 탁월하다고 오픈AI는 주장했다.
오픈AI는 "GPT-4o는 적재적소에 몇 단어를 추가하는 것만으로도 원하는 이미지를 구현해 낸다"며 "정확한 기호와 이미지를 융합시켜 이미지 생성을 시각적 커뮤니케이션을 위한 도구로 전환시킨다"고 강조했다.
GPT-4o에 이미지 생성이 기본 기능으로 탑재됨에 따라 사용자는 AI 챗봇과 자연스럽게 대화를 나누며 이미지의 세부 요소들을 계속해서 수정해 나갈 수 있다. 게임 캐릭터를 디자인하는 경우 이미지를 여러 번 조정해도 외형이 일관성 있게 유지된다.
또 기존 AI 모델들은 5~8개 객체에서 한계를 드러내지만, GPT-4o는 10~20개 객체를 처리할 수 있다. 사용자가 업로드한 이미지를 분석해 세부 정보를 통합한 이미지 생성도 가능하며, 텍스트와 이미지 사이의 지식을 연계해서 더 효율적으로 이미지를 만들어낼 수 있다. 다양한 이미지 스타일을 반영한 데이터를 학습해 현실감 있는 이미지나, 특정 스타일의 이미지 생성도 가능하다.
모든 생성 이미지에는 GPT-4o를 활용해 만들었다는 사실을 알리는 C2PA 메타 데이터가 포함돼 이미지 출처를 확인할 수 있다. GPT-4o 이미지 생성 기능은 이날부터 챗GPT의 플러스, 프로, 팀, 무료 사용자에게 기본 이미지 생성기로 제공된다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성