본문 바로가기

부스트캠프 AI Tech/데이터 제작

[2] 데이터 제작의 중요성 Ⅱ

  • 현업에서 서비스 개발 시에는 데이터셋은 준비되어 있지 않고 요구사항만 존재 하는 경우가 많다.
    • 그래서 AI 개발 업무의 상당 부분이 데이터셋을 준비하는 작업
  • 서비스향 AI 모델 개발 과정

  • 사용 중인 모델의 성능 개선을 하기 위한 방법은 2가지가 있다.
    • Data-Centric ( 데이터만 수정하여 모델 성능 올리기)
    • Model-Centric ( 데이터는 고정시키고 모델 성능 올리기
    • 그러나 웬만하면 Data-Centric에 집중하는 편. -> 모델 구조 변경하는 것은 비용이 크다. / 정확도에 대한 성능 개선 요구가 많다.
  • 데이터 관련 작업이 쉽지 않은 이유
    • 어떻게 하면 좋을지에 대해서 잘 알려서 있지 않다. ( 보통 모델에 대한 논문이 99%)
    • 라벨링 노이즈를 상쇄할 정도로 깨끗한 라벨링 데이터가 많아야 된다. ( 특정 이미지에서 사람마다 labeling 하는 경우가 다를 수 있다. ex) box을 어떻게 치는지 등 )
    • 그래서 annotation guide를 잘 작성하는 것도 중요
  • 데이터가 많을 수록 무조건 성능이 올라가는 것은 아니다.
    • 골고루 일저하게 라벨링된 데이터가 많아야 한다.
    • 해당 테스크에 대한 경험치를 잘 쌓을 필요가 있다.
  • Sofeware 2.0 IDE 가 갖춰야 할 것들( Sofeware 1.0 IDE는 pycharm, vscode 등 있지만 2.0 는 아직 ? )
    • 데이터셋 시각화
    • 데이터 라벨링
    • 데이터셋 정제(반복 데이터 제거, 라벨링 오류 수정)
    • 데이터셋 선별(Unlabeld Data에서 어떤 데이터를 라벨링 해야 할까?)

'부스트캠프 AI Tech > 데이터 제작' 카테고리의 다른 글

[6] Annotation Guide  (0) 2021.11.16
[5] 데이터 소개  (0) 2021.11.16
[4] Text Detection  (0) 2021.11.15
[3] OCR Technology and Services  (0) 2021.11.15
[1] 데이터 제작의 중요성 Ⅰ  (0) 2021.11.15