개요
국내 연구진이 인공지능 챗봇 이미지 데이터 훈련 비용을 최소화하는 기술을 개발했다.
KAIST(총장 이광형)는 전산학부 이재길 교수 연구팀이 심층신경망 훈련 비용을 최소화할 수 있도록 훈련 데이터의 양을 줄이는 새로운 데이터 선택 기술을 개발했다고 2일 밝혔다.
일반적으로 대용량의 심층 학습용 훈련 데이터는 레이블 오류(예를 들어 강아지 사진이 `고양이'라고 잘못 표기되어 있음)를 포함한다.
최신 인공지능(AI) 방법론인 재(再)레이블링(Re-labeling) 학습법은 훈련 도중 레이블 오류를 스스로 수정하면서 높은 심층신경망 성능을 달성하는데, 레이블 오류를 수정하기 위한 추가적인 과정들로 훈련에 필요한 시간이 더욱 증가한다는 단점이 있다.
이 교수팀이 개발한 기술은 레이블 오류를 스스로 수정하는 최신 재레이블링 학습법을 위해 핵심 집합 선별을 수행해 심층 학습 훈련 비용을 최소화할 수 있도록 해준다.
레이블 오류가 포함된 현실적인 훈련 데이터를 지원하므로 실용성이 매우 높다고 연구팀은 설명했다.
이를 기반으로 전체 훈련 데이터의 총합 이웃 신뢰도를 최대화하는 데이터 부분 집합을 선별해 레이블 수정 정확도와 일반화 성능을 최대화하는 `재레이블링을 위한 핵심 집합 선별'을 제안했다.
연구팀이 이미지 분류 문제에 대해 다양한 실세계 훈련 데이터를 사용해 방법론을 검증한 결과, 최종 예측 정확도가 레이블 오류가 없다는 가정에 따른 표준 학습법에서는 최대 9%, 재레이블링 학습법에서는 최대 21% 향상되는 것으로 나타났다고 설명했다.
또 총합 이웃 신뢰도를 최대화한 효율적 '탐욕 알고리즘'(greedy algorithm)을 통해 기존 방법론에 비해 획기적으로 시간을 줄이고 수백만 장의 이미지를 포함하는 초대용량 훈련 데이터에도 쉽게 확장될 수 있음을 확인했다고 말했다.
제1 저자인 박동민 박사과정 학생은 "이번 기술은 오류를 포함한 데이터에 대한 최신 인공지능 방법론의 훈련 가속화를 위한 획기적인 방법ˮ 이라면서 "다양한 데이터 상황에서의 강건성이 검증됐기 때문에, 실생활의 기계 학습 문제에 폭넓게 적용할 수 있어 전반적인 심층 학습의 훈련 데이터 준비 비용 절감에 기여할 것ˮ 이라고 밝혔다.
데이터 레이블링
데이터 레이블링 또는 데이터 어노테이션은 머신 러닝(ML) 모델을 개발할 때 수행하는 전처리 단계의 일부입니다. 데이터 레이블링을 하려면 원시 데이터(즉, 이미지, 텍스트 파일, 비디오)를 식별한 다음 해당 데이터에 하나 이상의 레이블을 추가하여 모델을 위한 컨텍스트를 지정해야 합니다. 이를 통해 머신 러닝 모델은 정확한 예측을 수행할 수 있습니다.
- 작동방식
기업들은 데이터를 클리닝, 구조화 및 레이블링하기 위해 소프트웨어, 프로세스, 데이터 어노테이터를 통합합니다. 이러한 훈련 데이터는 머신 러닝 모델의 토대가 됩니다. 이러한 레이블을 사용하여 분석가는 데이터 세트 내의 변수를 격리할 수 있습니다. 이를 통해 ML 모델을 위한 최적의 데이터 예측 변수를 선택할 수 있습니다. 이러한 레이블은 모델 훈련을 위해 가져와야 할 적절한 데이터 벡터를 식별합니다. 여기서 모델이 학습을 통해 최고의 예측을 수행합니다.
- 특징
- 레이블링된 데이터는 지도형 학습에 사용되고, 레이블링되지 않은 데이터는 비지도형 학습에 사용됩니다.
- 레이블링 데이터는 획득과 저장이 더 어렵고(즉, 시간과 비용이 많이 소요되며), 레이블링되지 않은 데이터는 획득과 저장이 더 쉽습니다.
- 레이블링된 데이터는 활용 가능한 인사이트를 결정하는 데(예: 예측 작업) 사용되는 한편, 레이블링되지 않은 데이터는 그 유용성이 제한적입니다. 비지도형 학습 방법은 새로운 데이터 클러스터를 발견하는 데 도움이 될 수 있으며, 레이블링을 수행할 경우 새롭게 범주화할 수 있습니다
https://www.yna.co.kr/view/AKR20231102158800063?section=industry/technology-science
https://www.ibm.com/kr-ko/topics/data-labeling
'IT Insight' 카테고리의 다른 글
"공공 클라우드시장 '노크'하는 글로벌 IT 공룡들…업계 긴장" (0) | 2023.11.05 |
---|---|
"북한, 암호 화폐 가치 떨어지자 사이버 공격 다양화" (0) | 2023.11.04 |
"토스 피싱제로 출시 이후 1년반 새 악성앱 86만건 삭제" (0) | 2023.11.02 |
"보험상품, 플랫폼서 쉽게 비교…보험-핀테크사 업무협약 체결" (0) | 2023.11.01 |
' 삼성전자, 내년 갤S24에 생성AI 탑재할듯…"핵심기능에 AI 적용"(종합) ' (0) | 2023.10.31 |