무엇이든 기계가 알아서 척척하는 인공지능(AI)은 생각보다 사람의 손이 많이 간다. 우선 AI를 성장시키기 위한 ‘AI 육아’ 작업은 반드시 사람의 손을 거쳐야 한다. AI는 데이터를 먹고 자란다. AI의 식량이자 연료인 데이터를 공급하는 작업 중 가장 기본이 바로 데이터 라벨링이다.
데이터 라벨링이란 AI가 어떤 내용의 데이터인지 알 수 있도록 이름표를 달아주는 일이다. 사진 속의 꽃이 장미인지 국화인지, 영상에서 뛰어다니는 짐승이 개인지 고양이인지 AI에게 알려주는 일이다. 이렇게 알려줘야 그다음부터 AI는 같은 데이터를 보면 정확하게 정의할 수 있다.
데이터 라벨링은 모두 사람이 한다. 데이터 라벨링 업체들이 사람들을 고용해 필요한 데이터를 솎아내는 식으로 진행한다. 예를 들어 개 데이터가 필요할 경우 사진 파일 속에서 개 데이터에 테두리를 쳐서 제출하는 식이다.
어렵고 복잡한 일이 아니어서 간단한 테스트와 교육만 받으면 학력, 나이 상관없이 누구나 할 수 있다. 그래서 임금도 높지 않다. 데이터나 업체마다 다르지만 건당 10~20원인 경우가 많다. 그래서 이 작업을 봉제 인형에 눈을 붙이는 대표적 저임금 아르바이트인 ‘인형 눈알 붙이기’에 곧잘 비유한다.
하지만 막상 해보면 간단하지 않다. 테두리를 대충 정하면 따로 검수하는 사람들이 확인한 뒤 퇴짜를 놓는다. 당연히 검수 과정도 모두 사람의 손을 거친다. 그러면 처음부터 다시 작업해야 한다. 개 사진에서 테두리를 묶을 때 다리가 조금 잘리거나 귀가 하나 빠지면 AI는 개를 귀 하나, 다리 3개인 짐승으로 인식할 수 있기 때문이다.
이렇게 입력과 검수, 재입력 과정을 반복하다보면 비숙련자의 경우 서너 시간 일해도 몇백 원 벌기가 쉽지 않을 수도 있다. 그렇다 보니 지겨워서 그만두는 경우가 많다. 이 때문에 국내 AI 관련 기업들은 아르바이트 성격의 2, 3개월 단기 계약직으로 사람을 뽑거나 외주를 준다. 일부 업체들은 데이터를 필요로 하는 기업으로부터 데이터 라벨링 외주를 받아서 다시 재하청을 준다. 주로 우리보다 임금이 싼 아프리카, 남미, 인도 기업에 재하청을 맡긴다.
문제는 여기에 정부 지원금이 들어간다는 점이다. 데이터 라벨링은 정부가 중요하게 생각하는 디지털 뉴딜 중 '데이터 댐' 사업과 관련이 있다. 특히 AI 데이터 바우처 사업은 정부가 데이터를 필요로 하는 기업들을 대신해서 데이터 라벨링 업체에 비용을 주고 데이터를 공급하도록 한다. 이를 통해 국내 일자리를 늘리겠다는 것이 정부의 복안이다.
하지만 이 과정에서 저임금 국가에 재하청을 준다면 국민 세금으로 남의 나라 일자리만 늘리는 꼴이 된다. 물론 비용 대비 효율을 생각하는 기업이 재하청을 주는 것을 탓할 수는 없다. 그러나 예산을 투입한 정부 정책이 취지에 맞게 제대로 집행되는지 짚어 봐야 한다는 얘기다.
더불어 국내에서 데이터 라벨링을 하는 사람들의 노동권에 대해서도 생각해 볼 필요가 있다. 단순 반복적인 데이터 라벨링은 지속 가능한 양질의 일자리라고 보기 어렵다. 당연히 경력이나 전문성을 인정받기 힘든 만큼 정당한 임금 교섭을 요구하거나 복지를 기대하기도 힘들다.
데이터 라벨링은 계속 늘어날 수 밖에 없는 만큼 정부는 이 부분에 대한 고민을 해야 한다. 관련 산업을 고도화할 수 있도록 예산을 효율적으로 집행하고, 그 안에서 노동권을 소외받는 사람들이 없도록 세심하게 살피는 정부의 정책적 배려가 필요하다.
기사 URL이 복사되었습니다.
댓글0