3. Multimodal CoT
- 다중 모달 CoT 기법입니다.
- 두 단계로 구성됩니다.
- 첫 번째 단계에서는 다중 모달 정보를 기반으로 이성을 생성합니다.
- 이미지가 비전으로 사용되는 경우라면, 이미지 내용을 읽습니다.
- 음성이나 영상이 사용되는 경우라면, 음성을 인식하거나 영상 내용을 읽습니다.
- 두 번째 단계는 생성된 정보를 활용한 답변을 추론합니다.
- 이 단계에서 CoT 기법을 활용할 수 있습니다.
- 예시
-
- 두 개의 물체가 공통적으로 가지는 속성은 무엇인가요?
더 나은 답을 선택하세요.
(A) 부드럽다, (B) 짜다
- AIPilotSmarteasy에서
- 코파일럿 비전 기능, 이미지 질의응답/생성 메뉴 선택
- 이미지를 로드하고, 설명을 상세하게, Chat 방식 체크
- 코파일럿 에이전트에서
- 이미지 내용을 설명해주세요.
- 질의응답을 요청하거나 생성을 지시
About the Author
(주)뉴테크프라임 대표 김현남입니다.
저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요.
http://www.umlcert.com/kimhn/Social Share