Track 1. Trustworthy AI/AI Security
1.2 심층 분석: LLM의 작동 원리와 잠재된 위협
Context Lab
2025. 10. 30. 02:54
LLM(Large Language Model)은 방대한 텍스트 데이터를 학습하여 인간과 유사한 언어를 이해하고 생성하는 AI 모델입니다. 현재 AI 기술 혁신을 주도하고 있으며, 그 응용 범위는 상상 이상으로 확장되고 있습니다. 그러나 그 강력한 능력만큼이나 구조적 특성에서 비롯되는 잠재적인 보안 위협 또한 간과할 수 없습니다. 이러한 위협에 효과적으로 대응하기 위해서는 LLM이 어떻게 작동하는지를 이해하는 것이 필수적입니다.
LLM의 핵심 작동 원리 (보안 관점에서의 이해)
LLM은 기본적으로 **트랜스포머(Transformer)**라는 신경망 구조를 기반으로 합니다. 이 구조는 입력 시퀀스(텍스트)를 처리하고 출력 시퀀스를 생성하는 데 특화되어 있습니다. 주요 작동 원리와 보안 이슈는 다음과 같습니다.
- 토큰화 및 임베딩 (Tokenization & Embedding)
- 입력된 텍스트는 모델이 이해할 수 있는 작은 단위인 **토큰(Token)**으로 분할됩니다 (단어, 구두점, 단어의 일부 등).
- 각 토큰은 고차원 벡터 공간의 **임베딩(Embedding)**으로 변환됩니다. 이 임베딩 벡터는 단어의 의미론적, 구문론적 정보를 함축하고 있으며, 벡터 공간 내에서의 위치나 거리가 단어 간의 관계를 나타냅니다.
- 보안 함의: 입력 데이터의 형태가 토큰 및 벡터로 변환되는 과정에서, 악의적인 미세 변화(Perturbation)가 벡터 공간에서 큰 의미 변화를 유발하거나 특정 패턴을 숨기는 데 사용될 수 있습니다.
- 어텐션 메커니즘 (Attention Mechanism)
- 트랜스포머의 핵심으로, 입력 시퀀스의 각 토큰이 출력 시퀀스의 토큰을 생성할 때 입력 시퀀스의 다른 토큰들에 얼마나 '주목'해야 하는지를 학습합니다. 이는 긴 문장에서도 중요한 컨텍스트 정보를 놓치지 않고 활용할 수 있게 합니다.
- 보안 함의: 어텐션 메커니즘은 모델이 사용자의 입력(Prompt)과 시스템에서 설정한 내부 지침(System Instruction) 등 다양한 소스의 정보를 혼합하여 판단하게 만듭니다. 공격자는 이 메커니즘의 작동 방식을 역이용하여, 사용자 입력에 시스템 지침을 무력화하는 명령을 삽입하는 프롬프트 인젝션(Prompt Injection) 공격을 시도할 수 있습니다. 모델이 악의적인 입력에 과도하게 '주목'하게 유도하는 방식입니다.
- 디코딩 및 생성 (Decoding & Generation)
- 모델은 앞서 처리된 정보(컨텍스트)를 바탕으로 다음에 올 확률이 가장 높은 토큰을 예측하고 생성합니다. 이 과정은 다음 토큰이 생성될 때까지 반복되어 최종 응답 문장을 완성합니다.
- 보안 함의: 모델은 학습 데이터에 기반하여 텍스트를 생성하므로, 학습 데이터에 편향되거나 유해한 정보가 포함되어 있다면 모델 또한 편향되거나 유해한 내용을 생성할 위험이 있습니다. 또한, 공격자는 특정 입력을 통해 모델이 민감 정보를 유출하거나(Training Data Extraction), 허위 정보를 생성하도록 유도할 수 있습니다. 모델의 생성 과정이 확률적이거나 비결정적인 요소를 포함하고 있어 예측 및 통제가 어렵다는 점도 보안상 위험을 증가시킵니다.
- 사전 학습 및 파인튜닝/얼라인먼트 (Pre-training & Fine-tuning/Alignment)
- LLM은 웹 스케일의 방대한 데이터로 사전 학습됩니다. 이 과정에서 모델은 언어의 통계적 패턴, 사실 정보, 상식 등을 학습합니다. 이후 특정 작업이나 안전성 확보를 위해 소량의 고품질 데이터로 파인튜닝되거나, 인간 피드백 기반 강화 학습(RLHF 등)을 통해 유해하거나 편향된 응답을 줄이도록 얼라인먼트(Alignment) 과정을 거칩니다.
- 보안 함의: 사전 학습 데이터에 악의적인 데이터가 포함되거나(데이터 중독, Data Poisoning), 파인튜닝/얼라인먼트 과정이 불충분하거나 우회될 경우(Jailbreaking, Alignment Attacks), 모델의 근본적인 동작이나 안전성이 훼손될 수 있습니다. 또한, 방대한 학습 데이터로 인해 모델이 특정 개인 정보나 저작권이 있는 데이터를 '기억'하고 유출할 잠재적 위험이 존재합니다(Membership Inference, Training Data Reconstruction).
그럼 다음 화에서는 보안 영향도 및 실제 피해 사례에 대해 알아보도록 하겠습니다.