Upstage API – Document OCR

OCR (Optical Character Recognition)은 광학 문자 인식 기술입니다. 이미지, 스캔 문서 또는 기타 유형의 이미지에서 텍스트를 전자적으로 추출하고 컴퓨터가 편집, 검색 및 저장할 수 있는 데이터로 변환하는 기술입니다.

Upstage Document OCR은 다양한 문서 이미지에서 텍스트를 효율적으로 감지하고 인식하도록 설계되었습니다. 다양한 언어 및 이미지 품질에 걸쳐 높은 정확성과 다재다능성을 보장합니다.

 

Try in our Playground!

 

모델
ocr-2.2.1 (2024-06-11)
, (, , ) . OCR .
문서에서 다양한 문제 (회전, 워터마크, 노이즈 등)를 효과적으로 처리하고 정확하게 텍스트를 추출할 수 있도록 설계되었습니다. 모델은 텍스트와 함께 위치 정보도 제공할 가능성이 높으며, 이는 문서 처리 자동화에 유용하게 활용될 수 있습니다.
Upstage OCR은 문자 인식 과정에서 인식된 텍스트가 정확할 가능성을 측정하는 신뢰도 점수를 생성합니다. 이 점수는 OCR 시스템 출력의 정확도를 나타내는 데 도움이 됩니다. 신뢰도 점수는 처음에는 문자 수준에서 생성되지만, 애플리케이션에서 더 유용하게 사용될 수 있도록 단어 수준에서 보정됩니다. 이 신뢰도 점수는 인식된 콘텐츠를 시각화하거나 검증하는 데 사용할 수 있으며, 낮은 점수는 더 자세한 검사 또는 필터링이 필요한 영역을 강조 표시합니다. 이 과정을 통해 추출된 텍스트의 신뢰성을 평가하고 추가적인 검증이 필요한지 판단하여 전반적인 정확성과 사용자 신뢰도를 향상시킬 수 있습니다.
저스틴) 신뢰도를 가지고 결과에 표시할 수도 있고, 낮은 점수인 것에 대해 결과 기반 개선을 요청할 수도 있겠네요.

1. 모델 출력에 대한 이해:

  • 이는 모델이 각 단어에 대한 경계 상자(bounding box) 정보를 제공한다는 것을 암시합니다. 따라서 모델 출력에는 추출된 텍스트와 함께 각 텍스트 요소의 위치 정보가 포함될 가능성이 높습니다.
  • 출력 형식은 모델의 API 문서 또는 사용 설명서를 참조해야 정확히 알 수 있습니다.

2. 실제 문서에 대한 견고성 (Robustness):

  • 다양한 시나리오 지원: 이 OCR 모델은 회전된 이미지, 워터마크, 노이즈, 체크박스와 같은 다양한 문서 처리 시나리오에서 강력한 성능을 제공하도록 설계되었습니다.
  • 정확한 텍스트 감지 및 인식: 다양한 시나리오를 포괄하는 고품질 데이터셋을 기반으로 학습하여 텍스트를 정확하게 감지하고 인식합니다.
  • 회전된 문서 처리: 회전된 문서에서 단어 상자의 왼쪽 상단 모서리를 정확하게 감지하여 정확한 텍스트 추출을 보장합니다.
  • 워터마크 및 체크박스 무시: 학습 과정에서 워터마크와 체크박스를 무시하도록 설계되어 문서에서 의미 있는 텍스트만 추출합니다.

3. 활용 가치:

  • 이러한 기능들은 기업과 개인이 정확하고 효율적인 문서 처리 능력을 얻고자 할 때 이상적인 솔루션이 됩니다.
About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply

*