VLM 기반 3세대 OCR
빅스는 VLM 기반 3세대 OCR로서 의료, 제조, 건설 등 비정형 문서의 구조와 맥락을 이해하고
데이터화하여 분석 및 업무 자동화까지 지원하는 지능형 문서 AI 솔루션입니다.
VLM 기반 3세대 OCR
빅스는 VLM 기반 3세대 OCR로서 의료, 제조, 건설 등 비정형 문서의 구조와 맥락을 이해하고
데이터화하여 분석 및 업무 자동화까지 지원하는 지능형 문서 AI 솔루션입니다.
기존 OCR 기술은 문서의 문자들을 나열하여 변환해 줄 뿐,
표나 불규칙한 양식 또는 손글씨가 섞여 있는 복잡한 문서에서는
글자 간의 관계나 흐름 같은 의미 있는 정보(Context)를 제대로 파악하지 못해
텍스트는 읽지만 문맥을 놓치는 한계가 있습니다.
◼ 핵심 기술 내용 ◼
◾VLM 기술 사람처럼 문서를 이해하는 차세대 인식 기술
◾Active Learning 사용할수록 똑똑해지는 효율적인 학습 사이클
◾All-in-One Platform 도입부터 운영, 개선까지 한 번에 해결
◾VLM (시각과 자연어의 통합 학습)
인간이 문서를 볼 때 텍스트와 디자인을 동시에 인지하여 의미를 파악하는 방식과 동일하게 작동하여 문서를 해석합니다
◾Key-Value (복잡한 문서 구조에 대한 완벽한 이해)
텍스트 내용뿐만 아니라 시각적 위치 정보를 결합하여 키-밸류(Key-Value)관계를 정확히 추출합니다.
◾Zero-Shot
신규 문서 양식이 추가되어도 별도의 템플릿 정의나 대규모 추가 학습 없이 즉시 정보를 추출하거나,
최소한의 예시만으로도 높은 정확도를 확보합니다.
◾Active Learning (능동 학습으로 효율적인 데이터 선별)
이미 학습된 쉬운 데이터는 AI가 스스로 자동 처리하고, '확신하지 못하는 데이터'만 선별 후
사람에게 검수 요청을 수행하여 효율적인 데이터를 선별합니다.
◾Self-Learning (HITL 기반의 자가 진화 사이클)
추론, 불확실성 선별, 사용자 피드백, 재학습의 반복 사이클을 통해 모델 성능을 지속적으로 고도화합니다.
◾Save & Accuracy (비용 절감 및 정확도 극대화)
능동학습은 레이블링 비용을 줄이고, 학습 속도를 높이며, 인력은 단순 업무가 아닌 핵심 업무에 집중시켜 운영 효율을 개선합니다.
◾업무 자동화 및 확장성 제공