태호님 2021. 11. 16. 12:39
  • OCR 학습 및 평가 데이터

  • Public Dataset 
    • Kaggle
    • RRC (2년마다 열리는 OCR 전문 대회)
    • 논문 Arixv (ai 논문), icdar (ocr)
    • Datatang(데이터 유료 구매) 
  • OCR 데이터에 포함되는 것들

  • don't care의 transciption ### 로 표시
  • 다양한 annotation format 존재 (json, xml, csv) -> 통합 UFO(Upstage Format for OCR)