〔Data Labeling〕 ‘데이터 라벨링’에 부는 변화의 바람
단순 라벨링 작업 비중 감소, 고품질 데이터 수요는 늘어날 듯
거대언어모델(Large Language Model, LLM)이 국내외 IT 시장을 선도하는 기술로 자리매김하며 데이터 라벨링 시장도 새로운 국면을 맞이했다. LLM이 가공되지 않은 대규모 데이터를 학습하면서 관련 데이터의 수요 형태가 변하고 있기 때문이다. 이 같은 변화 속에서 업체들은 그동안 다져 온 고품질 데이터 구축 역량을 기반으로 기존 사업을 강화함과 동시에 새로운 사업 모델을 발굴해 나가고 있다. LLM 등장 후 달라진 데이터 라벨링 업계의 모습을 들여다봤다.
◇딥러닝 모델에 필요한 ‘데이터 라벨링’
데이터 라벨링(Data Labeling)은 딥러닝(Deep Learning) 모델과 함께 성장했다. 딥러닝 기술이 여러 분야에서 활용되며, 이에 필요한 데이터 라벨링의 수요도 증가해 왔다. 데이터 라벨링과 딥러닝의 관계를 알기 위해서는 우선 딥러닝이 어떤 기술인지 이해해야 한다.
딥러닝은 예시 데이터를 기반으로 한 인공 신경망(Artificial Neural Network, ANN) 형태의 학습 과정을 통해 복잡한 문제를 해결하는 인공지능(AI) 기술이다. 구체적으로 살펴보면, 딥러닝 모델은 먼저 예시 데이터를 학습하는 훈련 작업을 거친다. 그 이후 훈련된 인공 신경망을 활용해 특정 데이터를 평가하고 이 결과를 보고한다. 개발자는 입력 데이터와 예상 결과를 두고 가중치를 조정하거나 이에 적절한 데이터를 점진적으로 더하며, AI는 데이터를 평가하는 과정을 수백 또는 수천 번 반복한다. 이를 토대로 AI는 의사결정이나 예측을 수행할 수 있는 중요한 패턴 및 규칙을 학습하게 된다.
학습에 투입되는 데이터를 가공하는 작업이 바로 ‘데이터 라벨링’이다. 이미지, 영상, 텍스트 등의 데이터를 AI가 학습할 수 있도록 사람이 가공 도구를 활용해 목적에 맞게 입력하는 것이다.
데이터 라벨링을 설명하는 대표적인 예시는 고양이 사진이다. 사람이 고양이 사진을 보고, 사진 속 대상을 ‘고양이’라고 인식하는 일은 상당히 직관적이다. 거의 모든 사람은 별다른 설명이 없더라도 사진 속 동물이 고양이라는 사실을 알 수 있다. 하지만 AI는 그렇지 않다. 아무런 학습을 거치지 않았다면, 사진 안에 담긴 동물이 고양이인지 알아보지 못한다.
여기서 딥러닝 모델에 적절한 학습을 제공하기 위해 사진에 고양이와 관련된 정보를 입력하는 것이 데이터 라벨링의 역할이다.
예시로 든 고양이 사진의 경우뿐만 아니라 텍스트, 이미지, 음성 등 다양한 정형·비정형 데이터를 AI에 딥러닝 방식으로 학습시킬 수 있다. 이렇게 만들어진 AI 모델은 컴퓨터 비전, 음성 인식, 자연어 처리, 자율 주행 등 많은 분야에서 혁신적인 기술을 가능하게 만들었다. 그리고 많은 기업들이 이러한 혁신적인 기술을 도입하면서 산업 분야와 관계없이 데이터 라벨링에 대한 수요는 증가해 왔다.
◇‘디지털 뉴딜’과 함께 성장한 시장
정부도 이 같은 데이터 라벨링의 가치를 알아보고 전폭적인 지원에 나섰다. 2016년 딥러닝으로 개발된 알파고(AlphaGO)가 큰 파장을 일으킨 후, 정부는 한국지능정보사회진흥원(NIA)을 통해 2017년부터 AI 학습용 데이터 구축·확산 사업을 진행했다. 구축된 데이터는 우리나라 국민이라면 누구나 활용해 기술을 개발할 수 있도록 ‘AI 허브(AI-Hub)’를 통해 공개됐다.
특히 2020년 발표된 디지털 뉴딜의 핵심 과제 중 하나로 ‘데이터 댐(Data Dam)’ 구축을 선정, 대규모 데이터 라벨링 사업을 추진했다. 이를 위해 2021년 2,925억 원, 2022년 5,382억 원, 2023년 2,188억 원 등 막대한 예산을 투입했다. 그 결과 과학기술정보통신부와 NIA는 지난해까지 AI 허브에 총 691종, 약 26억 건의 데이터를 개방했다.
해외 시장에서도 데이터 라벨링 시장은 크게 성장했다. 그랜드 뷰 리서치는 2020년 보고서를 통해, 글로벌 데이터 라벨링 툴 시장 규모가 2019년 전 세계 기준 4,700억 원에 달하고 수익 규모는 8,500억 원에 이른다고 발표했다. 또한 2020년부터 2027년까지 연평균 26.9% 증가해 2027년에는 약 3조 원 규모로 확대될 것으로 예측했다.
◇LLM 등장으로 바뀌기 시작한 판도
2022년 11월, 오픈AI는 자체 개발한 LLM 모델 GPT-3.5로 만든 ‘챗GPT(ChatGPT)’를 출시했다. 챗GPT는 일상에서 사용하는 자연어를 프롬프트로 입력하면 마치 사람이 만든 듯한 결과물을 생성하며 전 세계를 놀라게 했다. 이후 할루시네이션(Hallucination, 환각 현상) 등의 문제가 발견됐지만, 많은 이들이 원하는 명령을 입력하는 것만으로 새로운 결과물을 얻을 수 있다는 점에 매료됐다. 국내외 IT 기업은 자체 개발한 LLM을 속속 출시했고, 다른 업계에서도 AI를 도입해 업무 효율성을 향상할 방안을 마련하기 시작했다.
그 여파는 데이터 라벨링 시장에도 전달됐다. 시장은 LLM에 적합한 데이터를 요구했다. 그런데 LLM이 요구하는 방향은 이전까지의 데이터 라벨링과 조금 달랐다. LLM을 만들기 위해서는 그동안 라벨링 작업으로는 수용할 수 없는 방대한, 가늠할 수 없을 정도로 거대한 양의 데이터가 필요했다. 챗GPT의 근간이 된 GPT-3는 1,750억 개라는 천문학적인 규모의 매개변수(파라미터)를 보유했으며, 이후 등장한 소형 거대언어모델(sLLM)도 10억 개 내외의 매개변수를 갖췄다.
기본이 되는 인공 신경망도 트랜스포머(Transformer) 모델로 바뀌었다. LLM을 개발하기 위해서는 트랜스포머 모델에 인간 언어를 LLM이 처리할 수 있도록 개별 단어나 구(Phrase) 규모로 잘게 쪼갠 ‘토큰(Token)’을 넣어야 한다. 트랜스포머 모델은 토큰을 통해 문장 속 단어와 같은 데이터 안의 순차적 관계를 추적함으로써 맥락, 의미를 학습한다. AI가 수많은 요소 사이의 패턴을 찾아내는 방식이기 때문에 데이터에 여러 정보를 담는 라벨링 작업은 비중이 전보다 낮아지게 됐다.
이러한 변화는 정부 사업에서도 감지됐다. 정부는 지난해 LLM이 확대되는 시장 상황을 근거로 전체 데이터셋 구축 사업에서 라벨링 작업을 거친 데이터의 비중을 줄이기로 결정했다. 또한 올해 데이터 구축 사업의 예산 역시 지난해보다 감소한 400억 원 규모로 책정했다.
◇여전히 핵심은 고품질 데이터
데이터 라벨링의 ‘양’이 줄어들었다고 해서 그 ‘중요도’가 낮아진 것은 아니다. 명확한 목적이 정해지지 않은, LLM의 기본 형태인 ‘파운데이션 모델(Foundation Model)’만으로는 실제 업무 활용에 어려움이 있기 때문이다. 이를 해결하기 위해 미세조정(파인튜닝)과 RAG(검색 증강 생성) 등의 보완이 필요하며, 이 과정에서 여전히 라벨링 작업을 거친 고품질 데이터가 요구된다.
환각 현상 역시 LLM 도입에 있어 해결해야 할 과제 중 하나다. LLM은 단어(토큰) 간 관계를 분석하고 맥락을 파악해, 확률적으로 가장 그럴듯한 답변을 생성한다. 정확한 의미를 알고 답을 만들어내는 것은 아니라는 이야기다. 따라서 사람처럼 자연스러운 글은 쓸 수 있지만, 특정한 사실이나 정보를 제공하는 데는 약점이 있을 수밖에 없다.
RAG는 이러한 문제를 보완하고자 도입된 기술이다. 간단히 설명하면, RAG는 LLM이 사용자의 질문에 답변을 생성하기 전에 내부 데이터베이스(DB)를 확인, 이를 종합해 정확한 정보를 제공할 수 있도록 지원한다. LLM에 학습되지 않은 도메인 특화 데이터나 기업 내부 데이터를 더해 정확도를 높이는 방식이다.
하지만 회사가 보유한 DB를 모두 넣을 수는 없다. 때문에 LLM을 가장 효율적으로 사용할 수 있도록 데이터 구조화가 요구된다. 데이터 라벨링 업체들은 이러한 문제를 해결하는 컨설팅 작업을 지원한다.
2021년부터 2022년까지 진행한 울산항만공사의 자율 항만 프로젝트의 경우, 도선사 업무 자동화를 위해 고해상도 이미지를 세밀하게 라벨링하는 역량이 요구됐다. 이를 위해 자사 솔루션 ‘블랙올리브(blackolive)’에 검수 자동화 기능 등을 추가 개발해 프로젝트를 완수했다.
또한 과기정통부 주관 사업을 통해 전국 고속도로, 국도 및 광역시 주요 도로를 대상으로 총 45만km 데이터 수집 구간에 대한 도로안전시설물, 교통관리시설물 등 총 35종의 데이터셋을 구축했다. 해당 데이터셋은 AI 허브를 통해 공개될 예정이다.
테스트웍스 김수덕 본부장은 “빠르게 성장하는 AI 시장에서 편향된 데이터는 사회에 부정적인 영향을 미칠 우려가 있다. 이를 예방하기 위해 정확한 데이터셋의 중요도는 더욱 높아질 것”이라며 “데이터 수집, 가공, 검증의 원스톱 서비스를 고도화해 고품질의 데이터 가공을 제공하고자 노력하겠다”고 밝혔다.
인피닉은 데이터 라벨링을 활용해 자율주행 분야에서 성과를 거뒀다. 국내 주요 자율주행 관련 연구기업과 파트너사로서 협력했으며, 특히 2022년에는 현대기아차그룹과 데이터 납품 계약을 체결한 바 있다.
최근에는 자율주행뿐 아니라 방산 분야 등으로 사업을 넓혀가고 있다. 인피닉 관계자는 “지난해 방산혁신기업 100에 선정되며 해당 분야의 AI 연구과제를 맡게 됐다. 이를 통해 공공부문에 대한 접근을 강화함으로써 매출의 다양성 강화 및 장기적 성장의 토대를 마련할 수 있을 것으로 기대한다”고 밝혔다.
“하지만 AI의 정확도를 높이고 성능을 개선하는 데 필요한 전문화된 데이터의 수요는 더욱 증가할 것이다. 한동안 매개변수를 얼마나 많이 가져가는지가 화두에 올랐으나, 사실 데이터의 양 못지않게 중요한 부분이 고품질 데이터의 비중이다. 논문, 전문서적, 뉴스 기사와 같은 정보량이 풍부한 데이터를 충분히 학습시켜야 만족할 만한 성능을 확보할 수 있기 때문이다. 또한 기업이 활용하려는 분야에 전문 지식을 투입해 미세조정을 거쳐야 실제 업무에 도입할 수 있다. 따라서 전문인력이 만든 고품질 데이터 수요는 앞으로 더 늘어날 것으로 전망한다.”
2024.04.30 16:04
김호준 기자
'Trend & Issue > @AI & Data' 카테고리의 다른 글
〔Data Labeling〕 사투리·국내 주요도로 등 AI 학습용 데이터 170종 개방 (0) | 2024.07.17 |
---|---|
〔Data Labeling〕 데이터 라벨링의 정의와 데이터 구축단계 (0) | 2024.07.17 |
〔Data Labeling〕 AI 산업 육성 밑거름 ‘데이터 라벨링’ (0) | 2024.07.16 |
AI는 비지니스에 어떻게 접목될까? (0) | 2024.06.25 |
〔XaaS〕 RaaS(Retail) – 서비스형 리테일 (0) | 2024.06.24 |