- 현업에서 서비스 개발 시에는 데이터셋은 준비되어 있지 않고 요구사항만 존재 하는 경우가 많다.
- 그래서 AI 개발 업무의 상당 부분이 데이터셋을 준비하는 작업
- 서비스향 AI 모델 개발 과정
- 사용 중인 모델의 성능 개선을 하기 위한 방법은 2가지가 있다.
- Data-Centric ( 데이터만 수정하여 모델 성능 올리기)
- Model-Centric ( 데이터는 고정시키고 모델 성능 올리기
- 그러나 웬만하면 Data-Centric에 집중하는 편. -> 모델 구조 변경하는 것은 비용이 크다. / 정확도에 대한 성능 개선 요구가 많다.
- 데이터 관련 작업이 쉽지 않은 이유
- 어떻게 하면 좋을지에 대해서 잘 알려서 있지 않다. ( 보통 모델에 대한 논문이 99%)
- 라벨링 노이즈를 상쇄할 정도로 깨끗한 라벨링 데이터가 많아야 된다. ( 특정 이미지에서 사람마다 labeling 하는 경우가 다를 수 있다. ex) box을 어떻게 치는지 등 )
- 그래서 annotation guide를 잘 작성하는 것도 중요
- 데이터가 많을 수록 무조건 성능이 올라가는 것은 아니다.
- 골고루 일저하게 라벨링된 데이터가 많아야 한다.
- 해당 테스크에 대한 경험치를 잘 쌓을 필요가 있다.
- Sofeware 2.0 IDE 가 갖춰야 할 것들( Sofeware 1.0 IDE는 pycharm, vscode 등 있지만 2.0 는 아직 ? )
- 데이터셋 시각화
- 데이터 라벨링
- 데이터셋 정제(반복 데이터 제거, 라벨링 오류 수정)
- 데이터셋 선별(Unlabeld Data에서 어떤 데이터를 라벨링 해야 할까?)
'부스트캠프 AI Tech > 데이터 제작' 카테고리의 다른 글
[6] Annotation Guide (0) | 2021.11.16 |
---|---|
[5] 데이터 소개 (0) | 2021.11.16 |
[4] Text Detection (0) | 2021.11.15 |
[3] OCR Technology and Services (0) | 2021.11.15 |
[1] 데이터 제작의 중요성 Ⅰ (0) | 2021.11.15 |