업무 파일럿(업무 전문가)를 위한 프롬프트 엔지니어링: 실전 가이드 – 1. 프롬프트 엔지니어링 06. 고급 기법 3. Multimodal CoT

업무 전문가를 위한 프롬프트 엔지니어링

3. Multimodal CoT

다중 모달 CoT 기법입니다.
두 단계로 구성됩니다.
- 첫 번째 단계에서는 다중 모달 정보를 기반으로 이성을 생성합니다.
  - 이미지가 비전으로 사용되는 경우라면, 이미지 내용을 읽습니다.
  - 음성이나 영상이 사용되는 경우라면, 음성을 인식하거나 영상 내용을 읽습니다.
두 번째 단계는 생성된 정보를 활용한 답변을 추론합니다.
- 이 단계에서 CoT 기법을 활용할 수 있습니다.
예시
- 이미지:

- 두 개의 물체가 공통적으로 가지는 속성은 무엇인가요?
  더 나은 답을 선택하세요.
  (A) 부드럽다, (B) 짜다
AIPilotSmarteasy에서
- 코파일럿 비전 기능, 이미지 질의응답/생성 메뉴 선택
- 이미지를 로드하고, 설명을 상세하게, Chat 방식 체크
- 코파일럿 에이전트에서
  - 이미지 내용을 설명해주세요.
  - 질의응답을 요청하거나 생성을 지시
    - CoT 기법 활용

About the Author

(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply 응답 취소