구글 제미나이를 복제하려던 공격자들, 10만 번 넘게 프롬프트를 날렸다

AI 뉴스 바이블 시리즈로, 지난 AI 업계의 주요 소식들을 차근차근 정리하고 있습니다. 오늘은 2026년 2월 12일에 있었던 소식입니다.

최근 구글에서 나온 보고서를 보고 좀 소름이 돋았어요. 누군가 제미나이(Gemini)를 ‘똑같이’ 만들려고 10만 번이 넘는 프롬프트를 쏟아부었다는 거거든요. 이게 진짜 가능한 건가 싶었는데, 방법이 있더라고요. 디스틸레이션(Distillation)이라는 기법을 쓴 건데, 이건 마치 명품 가방을 똑같이 베껴 만드는 짝퉁 공장의 AI 버전 같은 거예요.

10만 번의 프롬프트, 도대체 뭘 하려던 걸까요?

구글은 공격자들이 제미나이 API를 무려 10만 회 이상 호출하며 모델을 복제하려 했다고 밝혔습니다. 이게 단순히 ‘많이 써봤다’는 수준이 아니라, 의도적으로 모델의 출력 패턴을 수집해서 똑같은 AI를 만들려는 시도였던 거죠. 마치 유명 작가의 문체를 통째로 베끼려고 그의 소설을 전부 대여해 필사하는 격이랄까요.

문제는 이게 생각보다 쉽다는 거예요. 대규모 언어모델(LLM)을 만드는 데는 수천억 원이 들고 몇 달이 걸리지만, 디스틸레이션 기법을 쓰면 기존 모델의 답변을 학습 데이터로 삼아 훨씬 적은 비용으로 비슷한 성능의 모델을 뽑아낼 수 있습니다. 공격자들은 이 점을 노린 거죠. 제미나이가 생각하는 방식, 답변하는 패턴, 지식의 깊이까지 전부 훔쳐가려 한 거예요.

디스틸레이션? 그게 뭔데 이렇게 무섭죠?

솔직히 처음 ‘디스틸레이션’이라는 단어를 들었을 때는 위스키나 향수가 떠올랐어요. 근데 AI 세계에서는 ‘증류’가 아니라 ‘추출’에 가깝더라고요. 큰 모델(teacher)에게 계속 질문을 던져서 나오는 답변을 모두 저장한 다음, 그 데이터로 작은 모델(student)을 학습시키는 방식이에요.

teacher 모델은 수백억 개의 파라미터를 가진 거대한 신경망입니다. 수조 원을 들여 수개월간 학습시킨 결과물이죠. student 모델은 이 teacher의 ‘출력 행동’을 흉내 내도록 훈련됩니다. 직접 원천 데이터를 모아 처음부터 훈련하는 것보다 훨씬 저렴하고 빠르게 유사한 성능을 낼 수 있어요. 실제로 DeepSeek R1이 OpenAI 모델을 디스틸레이션해 개발 비용을 대폭 낮췄다는 논란이 있었는데, 이번 구글 사건과 맥락이 같습니다.

정당하게 쓰면 기업들이 비용을 절감하는 좋은 기술인데, 문제는 악용될 때죠. 누군가 OpenAI나 구글의 최신 모델을 ‘복제’해서 싼 값에 팔거나, 그 지식을 바탕으로 경쟁 서비스를 내놓을 수 있다는 뜻이거든요. 특히 API로 서비스를 제공하는 입장에서는 사용자가 ‘정상적으로’ 쓰는 건지, 아니면 ‘훔쳐가려고’ 쓰는 건지 구분하기가 애매하다는 게 가장 골치 아픈 부분입니다. “이건 그냥 열심히 쓴 거예요”라고 해명하면 딱히 반박하기도 어렵거든요.

구글은 어떻게 막았나

그렇다면 구글은 이런 공격을 어떻게 탐지하고 방어했을까요? 구글이 공식적으로 밝힌 내용은 제한적이지만, 업계에서 알려진 방어 기술들을 보면 몇 가지 핵심 전략이 있습니다.

첫 번째는 API Rate Limiting(속도 제한)입니다. 단시간에 비정상적으로 많은 요청을 보내는 계정을 자동으로 차단하거나 속도를 늦추는 방식이에요. 10만 번의 호출이 감지됐다는 건, 이 탐지 시스템이 작동했다는 뜻이기도 합니다. 다만 공격자들이 여러 계정을 분산해서 쓰거나 요청 속도를 조절하면 탐지가 어려워지는 한계가 있어요.

두 번째는 출력 워터마킹(Watermarking)입니다. AI 모델의 답변에 눈에 보이지 않는 통계적 패턴을 심어두는 기술이에요. 사람은 알아챌 수 없지만, 특정 알고리즘으로 분석하면 “이 텍스트는 제미나이가 생성했다”고 판별할 수 있습니다. 복제 모델이 이 패턴을 그대로 학습하면 나중에 출처를 추적할 수 있는 증거가 되죠.

세 번째는 출력 다양화(Output Diversification)입니다. 같은 질문에 항상 똑같은 답변을 내놓지 않도록 의도적으로 변형을 주는 방식이에요. 디스틸레이션 공격자 입장에서는 데이터 일관성이 떨어지면 학습 효과가 감소합니다. “어차피 베껴봤자 품질이 별로야”라는 상황을 만드는 거죠.

네 번째는 이상 패턴 탐지입니다. 일반 사용자는 다양한 주제를 오가며 질문하지만, 디스틸레이션 공격자는 체계적으로 특정 유형의 프롬프트를 반복하는 경향이 있습니다. 이런 행동 패턴 차이를 머신러닝으로 분류해서 의심 계정을 가려내는 방식이에요.

해외에서도 벌어지고 있는 일

이런 AI 복제 논란은 구글만의 문제가 아닙니다. 글로벌 AI 업계 전체가 비슷한 위협에 놓여있어요.

가장 뜨거운 사례는 OpenAI vs DeepSeek 논란입니다. 2026년 초, 중국 스타트업 DeepSeek이 GPT-4 수준의 성능을 훨씬 저렴한 비용으로 구현했다고 발표하면서 AI 업계가 발칵 뒤집혔어요. OpenAI는 DeepSeek이 자사 모델의 출력 데이터를 무단으로 사용해 디스틸레이션했다는 의혹을 제기했습니다. DeepSeek 측은 이를 부인했지만, OpenAI가 API 사용 로그를 분석한 결과 비정상적인 대량 호출 패턴이 발견됐다는 보도가 이어졌어요.

Meta Llama 유출 사건도 있었습니다. Meta가 연구 목적으로 제한적으로 공개한 Llama 모델이 인터넷에 무단 유포되면서 누구나 내려받아 쓸 수 있는 상황이 됐어요. Meta 입장에서는 의도치 않게 AI 민주화를 촉진한 셈이 됐는데, 이를 기반으로 수많은 파생 모델들이 탄생했습니다. 일부는 안전 장치를 제거하거나 특정 목적에 맞게 파인튜닝해서 오용하는 사례도 생겼어요.

이 두 사건을 보면 AI 복제 위협이 단순한 해킹이 아니라 비즈니스 전략적 행위로 자리잡고 있다는 걸 알 수 있습니다. 수조 원 짜리 모델을 몇억 원 만에 비슷하게 만들 수 있다면, 하지 않을 이유가 없으니까요.

한국 AI들도 같은 위험에 노출되어 있나요?

이건 구글만의 문제가 아니에요. 네이버의 클로바, 카카오의 카나나(Kanana), KT의 Mi:dm 등 국내 AI들도 비슷한 위협에 노출되어 있을 수 있습니다. 특히 API를 통해 서비스를 제공하는 국내 기업이라면 누군가 조용히 데이터를 긁어가며 모델을 복제하려 하고 있을지도 몰라요.

한국에서는 아직 이런 ‘모델 복제’에 대한 명확한 규제나 법적 판례가 부족한 실정이에요. 저작권 침해로 볼 수도 있지만, AI가 생성한 결과물을 학습 데이터로 쓰는 것이 합법인지 불법인지 경계가 모호하거든요. 법이 기술 발전 속도를 따라가지 못하는 게 현실인 만큼, 국내 기업들도 지식재산권 보호를 위한 기술적 장치를 더 강화해야 할 시점인 것 같습니다. 그렇지 않으면 정말 ‘똑같은’ 서비스가 불법 복제로 우후죽순 생겨날 수도 있으니까요.

일반 사용자에게 미치는 영향

“복제 공격이 내 일상이랑 무슨 상관이야?”라고 생각하실 수 있어요. 그런데 사실 꽤 직접적인 영향이 있습니다.

가장 먼저 느낄 수 있는 건 API 가격 인상입니다. 구글, OpenAI 같은 기업들이 복제 공격 방어 시스템을 강화할수록 운영 비용이 증가합니다. 이 비용은 결국 API 이용 요금에 반영되죠. 개발자들이 쓰는 GPT-4 API 가격이 오르면, 그 개발자들이 만든 앱 서비스 요금도 올라갈 수 있어요.

두 번째는 사용 제한 강화입니다. 비정상적인 대량 사용을 막기 위해 하루 사용량 제한이나 요청 속도 제한이 더 엄격해질 수 있어요. 합법적인 헤비유저들도 덩달아 제한을 받게 되는 부작용이 생기는 거죠.

세 번째는 오픈소스 AI의 미래와 관련이 있습니다. 복제 위협이 심해질수록 대형 AI 기업들은 모델을 더 폐쇄적으로 운영하려는 경향이 강해집니다. “공개하면 베껴간다”는 논리죠. 이렇게 되면 오픈소스 AI 생태계가 위축될 수 있어요. 연구자들이 자유롭게 최신 모델을 연구하고 개선하는 선순환 구조가 약해지는 겁니다.

그래서 우리한테 뭐가 달라지냐면… 앞으로 AI 서비스들이 더 까다로운 접근 제한을 걸거나, 사용량에 따른 가격 정책이 더 복잡해질 수 있다는 거예요. 결국 정상 사용자들도 그 영향을 고스란히 받게 되는 거죠.

결론: 10만 번 넘게 AI를 복제하려는 집념은 차라리 정직하게 모델을 만드는 데 써도 됐을 텐데. AI 보안이라는 새로운 전쟁이 시작됐습니다. 기술이 발전할수록 이를 보호하는 방어 기술도 함께 진화해야 하고, 제도적 뒷받침이 뒤따라야 한다는 교훈을 남긴 사건입니다.

구글 제미나이를 복제하려던 공격자들, 10만 번 넘게 프롬프트를 날렸다 관련 워크스페이스, AI generated

출처: https://arstechnica.com/ai/2026/02/attackers-prompted-gemini-over-100000-times-while-trying-to-clone-it-google-says/