VLM 기반 3세대 OCR

빅스는 VLM 기반 3세대 OCR로서 의료, 제조, 건설 등 비정형 문서의 구조와 맥락을 이해하고

데이터화하여 분석 및 업무 자동화까지 지원하는 지능형 문서 AI 솔루션입니다.


기존 OCR 기술은 문서의 문자들을 나열하여 변환해 줄 뿐,

표나 불규칙한 양식 또는 손글씨가 섞여 있는 복잡한 문서에서는

글자 간의 관계나 흐름 같은 의미 있는 정보(Context)를 제대로 파악하지 못해

텍스트는 읽지만 문맥을 놓치는 한계가 있습니다.

◼ 핵심 기술 내용 ◼

VLM 기술   사람처럼 문서를 이해하는 차세대 인식 기술


Active Learning   사용할수록 똑똑해지는 효율적인 학습 사이클


All-in-One Platform   도입부터 운영, 개선까지 한 번에 해결

VLM (시각과 자연어의 통합 학습)

    인간이 문서를 볼 때 텍스트와 디자인을 동시에 인지하여 의미를 파악하는 방식과 동일하게 작동하여 문서를 해석합니다


Key-Value (복잡한 문서 구조에 대한 완벽한 이해)

     텍스트 내용뿐만 아니라 시각적 위치 정보를 결합하여 키-밸류(Key-Value)관계를 정확히 추출합니다.


Zero-Shot

   신규 문서 양식이 추가되어도 별도의 템플릿 정의나 대규모 추가 학습 없이 즉시 정보를 추출하거나,

   최소한의 예시만으로도 높은 정확도를 확보합니다.


Active Learning (능동 학습으로 효율적인 데이터 선별)

   이미 학습된 쉬운 데이터는 AI가 스스로 자동 처리하고, '확신하지 못하는 데이터'만 선별 후

   사람에게 검수 요청을 수행하여 효율적인 데이터를 선별합니다.


Self-Learning (HITL 기반의 자가 진화 사이클)

   추론, 불확실성 선별, 사용자 피드백, 재학습의 반복 사이클을 통해 모델 성능을 지속적으로 고도화합니다.


Save & Accuracy (비용 절감 및 정확도 극대화)

    능동학습은 레이블링 비용을 줄이고, 학습 속도를 높이며, 인력은 단순 업무가 아닌 핵심 업무에 집중시켜 운영 효율을 개선합니다.


업무 자동화 및 확장성 제공

궁금하신 내용은 언제든 문의 해주세요