Upstage API – Document OCR
OCR (Optical Character Recognition)은 광학 문자 인식 기술입니다. 이미지, 스캔 문서 또는 기타 유형의 이미지에서 텍스트를 전자적으로 추출하고 컴퓨터가 편집, 검색 및 저장할 수 있는 데이터로 변환하는 기술입니다.
Upstage Document OCR은 다양한 문서 이미지에서 텍스트를 효율적으로 감지하고 인식하도록 설계되었습니다. 다양한 언어 및 이미지 품질에 걸쳐 높은 정확성과 다재다능성을 보장합니다.
모델
ocr-2.2.1 (2024-06-11)
이 모델은 특히 영어와 한국어에 특화되어 있으며, 일본어와 중국어 문자 세트(한자, 한자, 간지)도 지원합니다. 또한 주름진 종이나 회전된 텍스트와 같은 실제 이미지에 대한 복원력이 뛰어나 문서 OCR에 적합합니다.
문서에서 다양한 문제 (회전, 워터마크, 노이즈 등)를 효과적으로 처리하고 정확하게 텍스트를 추출할 수 있도록 설계되었습니다. 모델은 텍스트와 함께 위치 정보도 제공할 가능성이 높으며, 이는 문서 처리 자동화에 유용하게 활용될 수 있습니다.
Upstage OCR은 문자 인식 과정에서 인식된 텍스트가 정확할 가능성을 측정하는 신뢰도 점수를 생성합니다. 이 점수는 OCR 시스템 출력의 정확도를 나타내는 데 도움이 됩니다. 신뢰도 점수는 처음에는 문자 수준에서 생성되지만, 애플리케이션에서 더 유용하게 사용될 수 있도록 단어 수준에서 보정됩니다. 이 신뢰도 점수는 인식된 콘텐츠를 시각화하거나 검증하는 데 사용할 수 있으며, 낮은 점수는 더 자세한 검사 또는 필터링이 필요한 영역을 강조 표시합니다. 이 과정을 통해 추출된 텍스트의 신뢰성을 평가하고 추가적인 검증이 필요한지 판단하여 전반적인 정확성과 사용자 신뢰도를 향상시킬 수 있습니다.
저스틴) 신뢰도를 가지고 결과에 표시할 수도 있고, 낮은 점수인 것에 대해 결과 기반 개선을 요청할 수도 있겠네요.
1. 모델 출력에 대한 이해:
- 이는 모델이 각 단어에 대한 경계 상자(bounding box) 정보를 제공한다는 것을 암시합니다. 따라서 모델 출력에는 추출된 텍스트와 함께 각 텍스트 요소의 위치 정보가 포함될 가능성이 높습니다.
- 출력 형식은 모델의 API 문서 또는 사용 설명서를 참조해야 정확히 알 수 있습니다.
2. 실제 문서에 대한 견고성 (Robustness):
- 다양한 시나리오 지원: 이 OCR 모델은 회전된 이미지, 워터마크, 노이즈, 체크박스와 같은 다양한 문서 처리 시나리오에서 강력한 성능을 제공하도록 설계되었습니다.
- 정확한 텍스트 감지 및 인식: 다양한 시나리오를 포괄하는 고품질 데이터셋을 기반으로 학습하여 텍스트를 정확하게 감지하고 인식합니다.
- 회전된 문서 처리: 회전된 문서에서 단어 상자의 왼쪽 상단 모서리를 정확하게 감지하여 정확한 텍스트 추출을 보장합니다.
- 워터마크 및 체크박스 무시: 학습 과정에서 워터마크와 체크박스를 무시하도록 설계되어 문서에서 의미 있는 텍스트만 추출합니다.
3. 활용 가치:
- 이러한 기능들은 기업과 개인이 정확하고 효율적인 문서 처리 능력을 얻고자 할 때 이상적인 솔루션이 됩니다.