Trend & Issue/@AI & Data

〔Data Labeling〕 데이터셋 산업 현황 보고서

Paul Ahn 2024. 7. 18. 18:41

Data Labeling〕 데이터셋 산업 현황 보고서

(copyright.or.kr)

 

데이터셋(Dataset) 산업 현황 보고서.pdf
4.82MB

 

 

I. 데이터셋(Dataset)의 개념

 

(정의) 특정한 작업을 위해 데이터를 관련성 있게 모아놓은 데이터들의 집합체 즉 자료들의 모음으로 이미지, 텍스트, 오디오, 비디오, 숫자 데이터와 같이 여러 형식으로 된 자료를 포함할 수 있음

 

 

II. 학습용 데이터셋

 

(개념) 인공지능 모델을 훈련시키고 평가하기 위해 사용되는 데이터의 모음을 말함

 

(유형) 데이터의 종류에 따라 크게 텍스트, 이미지, 음성, 비디오 등 비정형 데이터 형태를 가짐

 

 

III. 인공지능(AI) 학습용 데이터

 

(인공지능 학습 방법) 머신러닝의 학습 방법은 학습 형태에 따라 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning) 세 가지로 나눌 수 있음

 

(수집 데이터 유형) 데이터 유형별로 데이터 수집 기술과 방법을 달리 적용하며 데이터 유형은 정형 데이터(Structured Data), 반정형 데이터(Semi-structured data), 비정형 데이터(Unstructured data)로 구분

 

AI 활용 목적에 따라 학습 데이터, 검증 데이터, 평가 데이터로 구분

 

 

IV. 인공지능(AI) 데이터 구축 및 서비스 개발

 

1. 인공지능 서비스 개발 과정

 

ㅇ 인공지능 서비스 개발 단계는 서비스 기획(문제 정의), 데이터 준비수집정제, 모델 학습, 모델 검증, 분석, 모델 평가, 배포 과정으로 구성

 

2. 인공지능 학습용 데이터 구축 과정

 

ㅇ 인공지능 모델의 학습을 목적으로 임무정의, 데이터 획득, 데이터 정제, 데이터 라벨링 등 인공지능 학습용 데이터를 구축하는 일련의 활동

 

 

V. 관련 기술

 

1. 원시데이터 수집 기술

2. 데이터 라벨링 기술

3. 합성 데이터 기술

 

 

VI. 시장 동향

 

1. 인공지능 학습용 데이터셋 구축 경쟁 가속화

2. 데이터 라벨링 수요 증가

3. AI 모델 훈련에서 합성 데이터의 부상

 

 

 

VII. 국내외 정책동향

 

1. 국외(EU, 핀란드, 네덜란드, 덴마크, 인도, 미국, 영국, G7)

2. 국내

 

VIII. 데이터 및 데이터셋 관련 법.제도 이슈

 

1. 국내

2. 국외

 

IX. 산업 분야별 활용사례

 

1. 방송.미디어 분야

2. 패션 분야

3. 헬스케어

4. 자율주행

 

한국저작권위원회

담당부서 : 심의산업통계팀 김영희(0557920094)

등록일 : 2023-06-29