오픈AI가 자사 AI 모델의 역량 강화를 위해 계약직에게 과거 직무 경험의 ‘실제 업무 데이터’를 업로드하도록 요청했다는 소식이 전해지며 IT 업계에 파문이 일고 있습니다. 이번 논란은 AI 기술 발전의 이면에서 데이터 수집의 윤리적, 법적 경계가 어디까지 허용될 수 있는가에 대한 중대한 질문을 던지고 있습니다.
와이어드(Wired) 보도에 따르면, 오픈AI는 훈련 데이터 기업 핸드셰이크 AI(Handshake AI)와 협력하여 서드파티 계약직들에게 이전 직장 또는 현재 직장에서 수행했던 실제 업무의 결과물을 요청하고 있습니다. 여기에는 워드 문서, PDF, 파워포인트, 엑셀, 이미지, 코드 저장소 등 구체적인 작업 파일들이 포함되며, 계약직들은 이를 업로드하기 전에 기밀 정보 및 개인 식별 정보를 삭제해야 한다는 지침을 받았다고 합니다. 이를 돕기 위해 챗GPT 기반의 ‘슈퍼스타 스크러빙(Superstar Scrubbing)’ 도구까지 제공되고 있습니다.
이는 AI 기업들이 고급 화이트칼라 업무를 자동화할 수 있는 고품질 훈련 데이터를 확보하려는 광범위한 전략의 일환으로 해석됩니다. AI 모델이 복잡하고 미묘한 인간의 전문성을 학습하기 위해서는 실제 환경에서 생성된 다양하고 정교한 데이터가 필수적이기 때문입니다.
데이터 수집의 위험한 줄타기: 지적재산권 논란
그러나 이러한 데이터 수집 방식은 심각한 지적재산권(IP) 침해 및 기밀 유출 위험을 내포하고 있다는 지적이 따릅니다. 지적재산권 전문 변호사 에반 브라운(Evan Brown)은 와이어드와의 인터뷰에서 이러한 접근 방식을 취하는 AI 연구소는 ‘스스로를 큰 위험에 빠뜨리고 있다’고 경고했습니다. 그는 계약직이 무엇이 기밀이고 무엇이 아닌지 판단하여 삭제해야 한다는 방식은 ‘계약직에 대한 과도한 신뢰’를 요구하는 것이며, 결과적으로 ‘상당한 위험’을 초래할 수 있다고 강조했습니다. 아무리 ‘스크러빙’ 도구를 제공하더라도, 인간의 실수나 의도치 않은 정보 유출 가능성을 완전히 배제할 수 없기 때문입니다.
오픈AI 대변인은 이 문제에 대해 공식적인 답변을 거부하며, 이번 논란의 불확실성을 더욱 증폭시켰습니다.
에디터의 시선
오픈AI의 이번 시도는 AI 기술 발전의 양면성을 극명하게 보여줍니다. 한편으로는 AI가 단순 반복 업무를 넘어 변호사, 컨설턴트, 마케터 등 전문직의 영역까지 파고들기 위한 절박한 노력으로 볼 수 있습니다. 실제 업무 환경에서 생성된 ‘날 것’의 데이터는 AI 모델이 비즈니스 맥락과 복잡한 문제 해결 능력을 학습하는 데 결정적인 역할을 할 것입니다. 기존의 웹 크롤링 데이터나 공개된 데이터셋만으로는 달성하기 어려운 수준의 고도화를 목표로 하는 것이죠.
그러나 다른 한편으로는 이러한 ‘데이터 갈증’이 윤리적 경계와 법적 위험을 간과하게 만드는 것은 아닌지 깊은 우려를 자아냅니다. 계약직이 과거 직무 데이터를 제공하는 과정에서 기업의 핵심 기밀이나 제3자의 지적재산권이 의도치 않게 AI 훈련 데이터로 유입될 가능성은 항상 존재합니다. 이는 단순히 오픈AI만의 문제가 아니라, 고품질 데이터 확보에 목마른 모든 AI 기업이 직면할 수 있는 공통적인 도전 과제입니다.
궁극적으로 AI 기술의 성공적인 상용화와 사회적 수용을 위해서는 기술 개발 속도만큼이나 데이터 수집 및 활용에 대한 투명하고 견고한 윤리적, 법적 프레임워크가 필수적입니다. 현재와 같은 ‘계약직의 자율 삭제’ 방식은 장기적으로 수많은 법적 분쟁을 야기하고 AI에 대한 신뢰를 저해할 위험이 큽니다. 기업들은 데이터를 넘어선 ‘지식’을 학습시키기 위한 더 안전하고 책임감 있는 방법을 모색해야 할 것입니다. 인공지능이 인간의 생산성을 극대화하는 도구가 되려면, 먼저 인간 사회의 규범과 가치를 존중하는 기본 위에 서야 합니다.