익명 게시판 67% 뚫렸다, AI가 신원 파악하는 데 고작 4달러

온라인에서 익명으로 글을 쓰는 행위는 오래도록 디지털 프라이버시의 마지막 보루로 여겨져 왔습니다. 실명 계정이 아닌 닉네임과 가명 뒤에 숨는 것만으로도 신원을 충분히 보호할 수 있다는 믿음이었습니다. 그런데 ETH 취리히와 Anthropic 공동 연구팀이 발표한 논문 한 편이 그 믿음을 근본부터 흔들고 있습니다. 가명으로 활동하는 사용자 89,000명 중 67%를 1인당 4달러도 안 되는 비용으로 실제 신원과 연결했다는 연구 결과입니다.

AI generated - 디지털 데이터 속에서 익명 사용자를 식별하는 개념의 프리미엄 테크 이미지
AI generated

LLM이 익명성을 무너뜨리다 — 연구 개요

2026년 2월 18일 arXiv에 공개된 논문 “Large-scale online deanonymization with LLMs”는 ETH 취리히의 Daniel Paleka, Florian Tramèr, MATS Research의 Simon Lermen, Joshua Swanson, Michael Aerni, 그리고 Anthropic의 Nicholas Carlini가 공동 저술했습니다. 익명성 연구 분야에서 산업계와 학계가 함께 손을 잡은 이례적인 구성입니다.

연구팀이 주목한 플랫폼은 Hacker News였습니다. 기술 커뮤니티 특성상 사용자들이 직업, 프로젝트, 관심사 등을 자유롭게 공유하지만 닉네임 뒤에 숨어 있다고 생각하는 공간입니다. 연구팀은 이 플랫폼 가명 사용자 89,000명의 게시물 이력을 수집한 뒤 LLM 기반 파이프라인을 가동했습니다.

결과는 충격적이었습니다. 89,000명 중 약 67%에 해당하는 사용자를 실제 LinkedIn 프로필과 정확하게 매칭하는 데 성공했고, 이때 정밀도(precision)는 90%, 재현율(recall)은 68%를 기록했습니다. 더 중요한 것은 비용입니다. 한 사람의 신원을 파악하는 데 든 비용은 고작 1~4달러, 전체 실험을 합산해도 2,000달러를 넘지 않았습니다.

비교 기준이 되는 비-LLM 방식은 같은 조건에서 거의 0%에 가까운 매칭률을 보였습니다. LLM이 처음으로 이 문제를 현실적으로 풀어낸 것입니다. 이전에 AI 에이전트 16개가 2주 만에 C 컴파일러를 만든 사례에서도 확인했듯이, LLM의 자동화 능력은 이미 상상 이상의 수준에 도달했습니다.

추가 검증도 진행됐습니다. Anthropic 내부 데이터셋에 포함된 125명의 사용자 중 9명을 정확하게 재식별했으며, 과학자 33명으로 구성된 별도 테스트에서는 9명을 82%의 정밀도로 식별하는 데 성공했습니다.

ESRC 파이프라인 — AI는 어떻게 신원을 추적하는가

연구의 핵심은 ‘ESRC 파이프라인’이라 명명된 4단계 자동화 프로세스입니다.

1단계: Extract(추출)
LLM이 사용자의 게시물 이력 전체를 읽고, 신원 파악에 유용한 특징들을 자동으로 추출합니다. 직업군, 사용 기술 스택, 거주 지역 단서, 교육 배경, 언급된 날짜나 이벤트, 글쓰기 패턴 등이 모두 대상입니다.

2단계: Search(검색)
추출된 특징들을 기반으로 의미 임베딩(semantic embedding) 기술을 활용해 LinkedIn 등 실명 플랫폼에서 후보 프로필을 검색합니다.

3단계: Reason(추론)
후보 프로필 각각에 대해 LLM이 증거의 가중치를 평가합니다. 직군 일치 여부, 졸업 연도, 사용 기술 등을 종합적으로 추론해 매칭 가능성을 산출합니다.

4단계: Calibrate(보정)
추론 결과에 신뢰도 점수를 부여하고 위양성(false positive)을 걸러냅니다. 정밀도 90%라는 수치는 이 보정 단계 덕분에 가능했습니다.

기존 방법과 가장 결정적으로 다른 점은 비구조화 텍스트를 직접 처리한다는 것입니다. 기존 익명성 제거 기술은 IP 주소, 접속 시간 같은 구조화된 수치 데이터에 의존했습니다. 반면 ESRC 파이프라인은 포럼 게시물, 댓글 등 날것의 자연어에서 직접 신원 단서를 추출합니다.

AI generated - 한국 여성이 노트북 앞에서 심각하게 화면을 검토하는 모습
AI generated

보안 전문가들의 반응 — “비용 장벽이 무너졌다”

세계적인 암호학자이자 보안 전문가 Bruce Schneier는 “몇 개의 댓글만으로도 LLM이 거주지, 직업, 관심사를 추론한 후 웹에서 사용자를 검색할 수 있다”고 설명하면서, 변화의 본질을 비용 문제로 분석했습니다.

과거에는 특정인의 익명 계정을 파악하려면 조사관이 수시간에서 수일을 투자해야 했습니다. 그런데 이제는 수 분 만에, 1인당 단 몇 달러로 가능해졌습니다. Schneier는 이를 “실질적 비용 장벽이 사라져 대규모 감시가 가능해졌다”고 정의했습니다.

그가 제시한 세 가지 시사점도 주목할 만합니다. 첫째, 익명성에 무관심했던 일반 사용자가 자동화된 추적에 무방비로 노출됩니다. 둘째, 의도적으로 익명화 노력을 기울인 고위험 사용자는 상대적으로 안전합니다. 셋째, 가장 위험한 변화는 비용 급감이 만들어낸 위협의 대중화입니다.

전자프런티어재단(EFF)의 Jacob Hoffman-Andrews도 “수많은 사람들이 익명성을 유지하길 원하며, 이들이 LLM처럼 헌신적인 적대자를 피하는 전문가여야 할 필요는 없다”고 우려를 표명했습니다.

연구에 직접 참여한 Daniel Paleka는 “당신의 신원을 파악하기 위해 누군가가 수시간을 투자해야 한다는 보안 모델은 이제 붕괴했다”고 단언했습니다.

한국 사용자에게 미치는 영향 — 블라인드, 에브리타임은 안전한가

이번 연구의 파장은 한국 온라인 생태계에서 특히 심각하게 받아들여야 합니다. 한국은 세계적으로도 독특한 익명 플랫폼 문화를 가지고 있기 때문입니다.

직장인 익명 커뮤니티 블라인드는 수십만 명의 현직자들이 직장, 직무, 연봉, 기업 문화 등을 허심탄회하게 공개합니다. 대학생 익명 커뮤니티 에브리타임도 마찬가지입니다. 학교, 학과, 수강 과목 등 특정 학교 재학생임을 입증하는 수많은 단서들이 게시물 속에 녹아 있습니다.

ESRC 파이프라인의 작동 원리를 대입하면 위험성이 분명해집니다. “우리 회사 재무팀에서 일한다”, “올해 3년차 개발자다”, “판교에 살면서 강남으로 출퇴근한다”는 식의 단편적인 언급들이 축적되면, LLM은 이를 종합해 실제 인물과 연결할 수 있는 특징 묶음을 만들어냅니다.

이미 구글 제미나이를 복제하려던 공격자들이 10만 번 넘게 프롬프트를 날린 사건에서 보았듯이, AI 기술을 악용하려는 시도는 이미 활발합니다. 가장 우려스러운 것은 사이버범죄자입니다. 피싱, 스토킹, 협박 등 악의적 목적에 이 기술이 동원될 가능성이 현실화되고 있습니다.

연구팀이 제안하는 방어 방법은 현실적이지만 실천이 쉽지 않습니다. 플랫폼별로 완전히 다른 페르소나를 사용하고, 직업·학력·거주지 등 개인 정보를 절대 언급하지 않으며, 글쓰기 스타일을 의도적으로 변형하는 것이 권장됩니다.

AI generated - 깨진 화면 위에 익명 아바타들이 실명 프로필과 연결되는 개념 이미지
AI generated

전망 및 시사점 — 익명성의 재정의가 필요한 시대

이번 연구는 기술적 경고이자 사회적 과제를 동시에 제시합니다. AI 기반 신원 파악 기술이 저비용으로 대중화된 이상, “온라인 익명성은 어느 정도 보호된다”는 기존 가정은 더 이상 유효하지 않습니다. 인터넷 AI 봇 전쟁에서 살펴본 것처럼 AI와 프라이버시의 충돌은 이미 여러 전선에서 벌어지고 있습니다. 정부, 플랫폼 사업자, 입법 기관이 AI 시대의 프라이버시 보호 기준을 새롭게 설계해야 한다는 요구가 높아질 것으로 보입니다. 한국 역시 AI 규제 논의에서 이번 연구를 중요한 참고 사례로 삼아, 익명 플랫폼 이용자를 보호하는 실질적인 법적 장치 마련에 나서야 할 시점입니다.

참고 소스

댓글 남기기