카테고리 없음

Inside the AI Factory

idlemoon 2025. 9. 7. 22:41

2023년 6월에 "Inside the AI Factory"라는 기사가 Verge와 New York Magazine에 실렸다 (두 잡지사의 공동 작업이었다). AI의 보이지 않는 이면에 많은 사람이 열악한 조건에서 일하고 있다는 내용이다. 첫 번째와 다섯 번째 문단을 GPT5에게 번역을 시켰다.

 

대학을 졸업하고 몇 달 뒤, 나이로비에 사는 내가 ‘조’라고 부를 30세 남성이 주석 작업자(annotator)로 일자리를 얻었다. 인공지능을 학습시키는 데 쓰이는 원시 정보를 처리하는, 지루하고 단조로운 일이다. AI는 방대한 데이터에서 패턴을 찾아 학습하지만, 그 이전에 그 데이터는 사람들에 의해 분류되고 태그되어야 한다. 대부분 기계 뒤에 가려진, 방대한 노동력이 그 일을 맡는다. 조의 경우 자율주행차를 위한 영상을 라벨링했다. 운전자가 인지해야 할 모든 차량, 보행자, 자전거 이용자 등을 가능한 모든 카메라 각도에서, 프레임 단위로 식별하는 작업이었다. 이는 어렵고 반복적인 일이다. 몇 초 분량의 짧은 영상 클립을 주석 처리하는 데 8시간이 걸렸고, 그 대가로 조가 받은 돈은 약 10달러였다.

 

영상에 나오는 각 물체들이 무엇인지 적는 - 라벨링 - 작업을 했다는 것이다.

 

오픈AI의 챗GPT 같은 언어 모델에 대한 대중의 반응은 대체로 이들이 자동화할 것처럼 보이는 수많은 일자리에 초점이 맞춰져 있다. 하지만 가장 인상적인 AI 시스템 뒤에도 사람이 있다. 거대한 규모의 인력이 데이터를 라벨링해 모델을 학습시키고, 모델이 혼란스러워할 때 데이터를 정리해 준다. 이 데이터를 살 여력이 있는 회사만이 경쟁할 수 있고, 데이터를 확보한 회사들은 이를 비밀로 유지하려는 동기가 매우 강하다. 그 결과, 몇몇 예외를 빼면 이러한 시스템의 행동을 형성하는 정보에 대해서는 알려진 바가 거의 없고, 그 형성을 실제로 수행하는 사람들에 대해서는 알려진 것이 더욱 적다.

 

"모델이 혼란스러워할 때 데이터를 정리"해준다는 건 틀렸을 때 바로잡아 준다는 뜻일 테다.

'형성하는' = 영향을 미치는

 

2년 전 글이므로 현재는 어떤지 물어보았더니 다음과 같이 답했다. 결론 부분만 옮긴다.

 

이 업계는 여전히 많은 인간 노동에 의해 운영되지만, 광범위한 저숙련 라벨링에서 더 적은 양의 고숙련 감독, 평가, 큐레이션, 거버넌스로 이동하고 있다. 그래도 저임금 모더레이션/라벨링은 일부 계속 남아 있다. 자동화와 합성 데이터는 효율성을 높였지만 사람의 필요성을 없애지는 못했다. 파이프라인에서 사람이 가장 중요해지는 지점을 바꾸어 놓았을 뿐이다.

 

'합성 데이터'는 가령 실제로 길에서 촬영한 영상이 아니라 인공지능이 만들어낸 영상 같은 것이다. 그 경우에는 사람이 라벨링을 할 필요가 없다. 그 영상을 만든 AI가 각 물체가 뭔지 라벨링을 할 테니까. 물론 완벽하진 않을 테고, 사람이 감독해야 할 것이다.