〔Data Labeling〕 데이터셋 산업 현황 보고서
I. 데이터셋(Dataset)의 개념
ㅇ (정의) 특정한 작업을 위해 데이터를 관련성 있게 모아놓은 데이터들의 집합체 즉 자료들의 모음으로 이미지, 텍스트, 오디오, 비디오, 숫자 데이터와 같이 여러 형식으로 된 자료를 포함할 수 있음
II. 학습용 데이터셋
ㅇ (개념) 인공지능 모델을 훈련시키고 평가하기 위해 사용되는 데이터의 모음을 말함
ㅇ (유형) 데이터의 종류에 따라 크게 ➊텍스트, ➋이미지, ➌음성, ➍비디오 등 비정형 데이터 형태를 가짐
III. 인공지능(AI) 학습용 데이터
ㅇ (인공지능 학습 방법) 머신러닝의 학습 방법은 학습 형태에 따라 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning) 세 가지로 나눌 수 있음
ㅇ (수집 데이터 유형) 데이터 유형별로 데이터 수집 기술과 방법을 달리 적용하며 데이터 유형은 정형 데이터(Structured Data), 반정형 데이터(Semi-structured data), 비정형 데이터(Unstructured data)로 구분
ㅇ AI 활용 목적에 따라 학습 데이터, 검증 데이터, 평가 데이터로 구분
IV. 인공지능(AI) 데이터 구축 및 서비스 개발
1. 인공지능 서비스 개발 과정
ㅇ 인공지능 서비스 개발 단계는 ➊서비스 기획(문제 정의), ➋데이터 준비․수집․정제, ➌모델 학습, ➍모델 검증, ➎분석, ➏모델 평가, ➐배포 과정으로 구성
2. 인공지능 학습용 데이터 구축 과정
ㅇ 인공지능 모델의 학습을 목적으로 임무정의, 데이터 획득, 데이터 정제, 데이터 라벨링 등 인공지능 학습용 데이터를 구축하는 일련의 활동
V. 관련 기술
1. 원시데이터 수집 기술
2. 데이터 라벨링 기술
3. 합성 데이터 기술
VI. 시장 동향
1. 인공지능 학습용 데이터셋 구축 경쟁 가속화
2. 데이터 라벨링 수요 증가
3. AI 모델 훈련에서 합성 데이터의 부상
VII. 국내외 정책동향
1. 국외(EU, 핀란드, 네덜란드, 덴마크, 인도, 미국, 영국, G7)
2. 국내
VIII. 데이터 및 데이터셋 관련 법.제도 이슈
1. 국내
2. 국외
IX. 산업 분야별 활용사례
1. 방송.미디어 분야
2. 패션 분야
3. 헬스케어
4. 자율주행
한국저작권위원회
담당부서 : 심의산업통계팀 김영희(0557920094)
등록일 : 2023-06-29
'Trend & Issue > @AI & Data' 카테고리의 다른 글
〔Data Labeling〕 월급은 포인트…데이터 라벨링 가혹노동 실태 (0) | 2024.07.18 |
---|---|
〔Data Labeling〕 사투리·국내 주요도로 등 AI 학습용 데이터 170종 개방 (0) | 2024.07.17 |
〔Data Labeling〕 데이터 라벨링의 정의와 데이터 구축단계 (0) | 2024.07.17 |
〔Data Labeling〕 ‘데이터 라벨링’에 부는 변화의 바람 (0) | 2024.07.16 |
〔Data Labeling〕 AI 산업 육성 밑거름 ‘데이터 라벨링’ (0) | 2024.07.16 |