구글 제미나이를 복제하려던 공격자들, 10만 번 넘게 프롬프트를 날렸다

AI 뉴스 바이블 시리즈로, 지난 AI 업계의 주요 소식들을 차근차근 정리하고 있습니다. 오늘은 2026년 2월 12일에 있었던 소식입니다.

최근 구글에서 나온 보고서를 보고 좀 소름이 돋았어요. 누군가 제미나이(Gemini)를 ‘똑같이’ 만들려고 10만 번이 넘는 프롬프트를 쏟아부었다는 거거든요. 이게 진짜 가능한 건가 싶었는데, 방법이 있더라고요. 디스틸레이션(Distillation)이라는 기법을 쓴 건데, 이건 마치 명품 가방을 똑같이 베껴 만드는 짝퉁 공장의 AI 버전 같은 거예요.

10만 번의 프롬프트, 도대체 뭘 하려던 걸까요?

구글은 공격자들이 제미나이 API를 무려 10만 회 이상 호출하며 모델을 복제하려 했다고 밝혔습니다. 이게 단순히 ‘많이 써봤다’는 수준이 아니라, 의도적으로 모델의 출력 패턴을 수집해서 똑같은 AI를 만들려는 시도였던 거죠. 마치 유명 작가의 문체를 통째로 베끼려고 그의 소설을 전부 대여해 필사하는 격이랄까요.

문제는 이게 생각보다 쉽다는 거예요. 대규모 언어모델(LLM)을 만드는 데는 수천억 원이 들고 몇 달이 걸리지만, 디스틸레이션 기법을 쓰면 기존 모델의 답변을 학습 데이터로 삼아 훨씬 적은 비용으로 비슷한 성능의 모델을 뽑아낼 수 있습니다. 공격자들은 이 점을 노린 거죠. 제미나이가 생각하는 방식, 답변하는 패턴, 지식의 깊이까지 전부 훔쳐가려 한 거예요.

디스틸레이션? 그게 뭔데 이렇게 무섭죠?

솔직히 처음 ‘디스틸레이션’이라는 단어를 들었을 때는 위스키나 향수가 떠올랐어요. 근데 AI 세계에서는 ‘증류’가 아니라 ‘추출’에 가깝더라고요. 큰 모델(teacher)에게 계속 질문을 던져서 나오는 답변을 모두 저장한 다음, 그 데이터로 작은 모델(student)을 학습시키는 방식이에요.

정당하게 쓰면 기업들이 비용을 절감하는 좋은 기술인데, 문제는 악용될 때죠. 누군가 OpenAI나 구글의 최신 모델을 ‘복제’해서 싼 값에 팔거나, 그 지식을 바탕으로 경쟁 서비스를 내놓을 수 있다는 뜻이거든요. 특히 API로 서비스를 제공하는 입장에서는 사용자가 ‘정상적으로’ 쓰는 건지, 아니면 ‘훔쳐가려고’ 쓰는 건지 구분하기가 애매하다는 게 가장 골치 아픈 부분입니다. “이건 그냥 열심히 쓴 거예요”라고 해명하면 딱히 반박하기도 어렵거든요.

한국 AI들도 같은 위험에 노출되어 있나요?

이건 구글만의 문제가 아니에요. 네이버의 클로바, 카카오의 카나, KT의 에어스카이 등 국내 AI들도 비슷한 위협에 노출되어 있을 수 있습니다. 특히 API를 통해 서비스를 제공하는 국내 기업들이라면 누군가 조용히 데이터를 긁어가며 모델을 복제하려 하고 있을지도 몰라요.

한국에서는 아직 이런 ‘모델 복제’에 대한 명확한 규제나 법적 판례가 부족한 실정이에요. 저작권 침해로 볼 수도 있지만, AI가 생성한 결과물을 학습 데이터로 쓰는 것이 합법인지 불법인지 경계가 모호하거든요. 법이 기술 발전 속도를 따라가지 못하는 게 현실인 만큼, 국내 기업들도 지식재산권 보호를 위한 기술적 장치를 더 강화해야 할 시점인 것 같습니다. 그렇지 않으면 정말 ‘똑같은’ 서비스가 불법 복제로 우후죽순 생겨날 수도 있으니까요.

그래서 우리한테 뭐가 달라지냐면… 앞으로 AI 서비스들이 더 까다로운 접근 제한을 걸거나, 사용량에 따른 가격 정책이 더 복잡해질 수 있다는 거예요. 결국 정상 사용자들도 그 영향을 고스란히 받게 되는 거죠.

결론: 10만 번이나 프롬프트를 날릴 정도의 집념이면 차라리 정직하게 모델을 만들지. 참나.

출처: https://arstechnica.com/ai/2026/02/attackers-prompted-gemini-over-100000-times-while-trying-to-clone-it-google-says/

10만 번의 프롬프트, 도대체 뭘 하려던 걸까요?

디스틸레이션? 그게 뭔데 이렇게 무섭죠?

한국 AI들도 같은 위험에 노출되어 있나요?

댓글 남기기 응답 취소