OpenAI는 GPT-4o에 이미지 생성 기능을 추가했습니다. 객체, 텍스트 처리 능력이 향상되었으며, 디자인 일관성을 유지합니다. Google 또한 Gemini 2.5 Pro를 출시했습니다. Gemini 2.5 Pro는 답변하기 전에 신중하게 생각하며 코딩 및 문제 해결 능력에서 최고의 자리를 차지했습니다.

OpenAI, 새로운 GPT-4o 이미지 생성 기능 출시

OpenAI가 ChatGPT 내부에 GPT-4o를 이용한 이미지 생성 기능을 내장하여 출시했습니다. 이 기능은 정확도가 높고 더 많은 객체를 처리하며 텍스트를 명확하게 렌더링합니다. 이는 대부분의 모델이 여전히 어려움을 겪고 있는 부분입니다. 또한 ChatGPT의 채팅 기록을 사용하여 시각적 결과물의 일관성을 유지하므로 단순한 속임수라기보다는 디자인 도구처럼 느껴집니다.

특징:
• ChatGPT 내장 – 별도의 도구가 필요 없으며 무료(출시 예정), Plus, Pro, Team 요금제에서 모두 사용 가능
• 향상된 시각적 논리 – 정확한 라벨, 모양 및 레이아웃으로 15~20개의 객체 처리
• 이미지 내 텍스트 품질 향상 – 메뉴, 다이어그램, 표지판 및 UI 목업에서 명확한 텍스트 작성
• 크리에이터에게 적합 – 스티커, 만화, 광고, 레스토랑 메뉴 등을 깔끔하게 제작

지금 ChatGPT에서 GPT-4o의 이미지 생성 기능을 사용해 볼 수 있으며, API 및 엔터프라이즈 액세스는 곧 제공될 예정입니다. DALL·E는 별도의 GPT로 계속 사용할 수 있습니다.

활용 사례

사실적인 텍스트가 포함된 사진

- 이제 표지판, 게시판 또는 건물에 쓰여진 글과 같이 읽을 수 있는 사실적인 텍스트가 많이 포함된 이미지를 처리할 수 있습니다.

인포그래픽
- “비디오 게임의 진화”와 같은 개념을 제공하면 정확한 세부 정보와 레이아웃으로 깨끗하고 텍스트가 많은 타임라인 그래픽을 만듭니다.
스타일 변경

- 이미지의 일부(예: 사람을 만화로 바꾸기)를 변경하는 동시에 다른 모든 것은 정확히 동일하게 유지하도록 ChatGPT에 요청합니다. 놀라울 정도로 잘 작동합니다.

Google의 새로운 Gemini 2.5 Pro, 답변 전에 생각하도록 설계

Google이 가장 스마트한 AI 모델인 Gemini 2.5 Pro Experimental을 출시했습니다. 이 모델은 응답하기 전에 신중하게 생각하도록 설계되었으며, 코딩, 수학 및 추론과 같은 어려운 문제를 더 잘 해결하는 데 도움이 됩니다. 현재 인간 피드백을 기반으로 한 리더보드인 LMArena에서 1위를 차지했습니다.

새로운 기능:
• 단계별 사고 – 더 어려운 문제를 더 정확하게 해결하는 데 도움
• 뛰어난 코딩 능력 – 대부분의 모델보다 더 나은 앱 구축, 코드 편집 및 프로그램 작성
• 더 많은 정보 처리 – 한 번에 최대 100만 토큰(약 75만 단어)을 읽을 수 있으며, 곧 200만 토큰 지원 예정
• 다양한 형식 지원 – 텍스트, 이미지, 오디오, 비디오 및 대용량 코드 파일 이해