업무 파일럿(업무 전문가)를 위한 프롬프트 엔지니어링: 실전 가이드 – 1. 프롬프트 엔지니어링 06. 고급 기법 3. Multimodal CoT

3. Multimodal CoT

  • 다중 모달 CoT 기법입니다.
  • 두 단계로 구성됩니다.
    • 첫 번째 단계에서는 다중 모달 정보를 기반으로 이성을 생성합니다.
      • 이미지가 비전으로 사용되는 경우라면, 이미지 내용을 읽습니다.
      • 음성이나 영상이 사용되는 경우라면, 음성을 인식하거나 영상 내용을 읽습니다.
  • 두 번째 단계는 생성된 정보를 활용한 답변을 추론합니다. 
    • 이 단계에서 CoT 기법을 활용할 수 있습니다.
  • 예시
    • 이미지:
    • 두 개의 물체가 공통적으로 가지는 속성은 무엇인가요?
      더 나은 답을 선택하세요.
      (A) 부드럽다, (B) 짜다
  • AIPilotSmarteasy에서
    • 코파일럿 비전 기능, 이미지 질의응답/생성 메뉴 선택
    • 이미지를 로드하고, 설명을 상세하게, Chat 방식 체크
    • 코파일럿 에이전트에서
      • 이미지 내용을 설명해주세요.
      • 질의응답을 요청하거나 생성을 지시
        • CoT 기법 활용
About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply

*