부스트캠프 AI Tech/데이터 제작
[5] 데이터 소개
태호님
2021. 11. 16. 12:39
- OCR 학습 및 평가 데이터
- Public Dataset
- Kaggle
- RRC (2년마다 열리는 OCR 전문 대회)
- 논문 Arixv (ai 논문), icdar (ocr)
- Datatang(데이터 유료 구매)
- OCR 데이터에 포함되는 것들
- don't care의 transciption ### 로 표시
- 다양한 annotation format 존재 (json, xml, csv) -> 통합 UFO(Upstage Format for OCR)