AI와 보안
1. Security for AI (AI를 보호)
🔸공격 유형
| 공격 목표 | 학습 단계 공격 예시 | 대응 방법 | 추론 단계 공격 예시 | 대응 방법 |
| 무결성 (Robustness) | 데이터 중독, 백도어 삽입 | 데이터 정제, 이상치 탐지 | 회피 공격 (적대적 예제 등) | 적대적 학습, 모델 앙상블 |
| 모델 기밀성 보호 | 모델 도난, 공유 모델 탈취 | 모델 암호화, 워터마킹, TEE | 모델 추출 | 모델 워터마킹 |
| 데이터 기밀성 보호 | 사용자 정보 유출 | 개인정보 보호형 ML (HE, MPC, TEE) | 모델 반전, 멤버십 추론 | 차등 프라이버시(DP), PPML |
🔸용어 설명 (중요 기술 개념)
| 용어 | 개념 요약 | 쉽게 풀어쓴 설명 / 예시 |
| 적대적 예제 | 모델을 속이기 위한 미세한 교란이 들어간 입력 | 이미지에 사람이 못 느낄 정도로 작은 노이즈를 더해 모델이 '고양이'를 '개'로 잘못 분류하게 만드는 공격 |
| 모델 워터마킹 | 모델 내부에 고유 정보를 삽입해 불법 복제를 추적 | 누군가 내 모델을 훔쳐 썼을 때, 정해진 질문을 던져 내가 만든 것임을 증명할 수 있게 만듦 |
| 동형암호 (HE) | 암호화된 상태에서도 연산 가능한 방식 | 데이터를 클라우드에 보내더라도 암호를 풀지 않고 계산이 가능 → 정보 유출 걱정 없이 AI 학습 가능 |
| 다자간 연산 (MPC) | 여러 참여자가 각자 비밀 데이터를 나누어 계산하는 방식 | 여러 병원이 환자 데이터를 공유하지 않고도 함께 AI 진단 모델을 학습시킬 수 있게 해줌 |
| 신뢰 실행 환경 (TEE) | CPU 내부의 격리된 공간에서 민감 데이터를 안전하게 처리 | 예: 암호화된 의료 데이터를 CPU 내부 안전 구역에서만 열고 계산함. 외부에서 접근 불가 |
| 차등 개인정보 보호 (DP) | 결과에 노이즈를 추가해 특정 개인 정보 노출을 방지 | 설문 통계를 낼 때 개인 응답은 보호하면서 전체 평균은 정확하게 유지하는 방식 |
2. AI for Security (AI를 활용한 보안)
- 악성코드 탐지
- 스팸 필터, 피싱 탐지
- 보안 로그 분석 (threat intelligence)
CNN 소개 및 학습
🔸CNN (Convolutional Neural Network)
- 특징 추출 + 분류 구조
- 구성 요소:
- Convolution layer
- Pooling layer (max pooling)
- Activation function (ReLU)
- Softmax (출력 확률 분포)
🔸학습 개념
- 파라미터(θ)를 조정하며 오차(Reducing Error)를 최소화
- 그림에서 θ=2 -> θ=3 -> θ=4 로 가며 최적 파라미터 탐색

AI Robustness – 적대적 공격
🔸Adversarial Example (적대적 예제)
- 전체 개념:
-> 사람 눈엔 차이 없지만, AI는 완전히 다른 출력을 낼 수 있음
-> AI 입력에 아주 작은 노이즈(perturbation)를 추가하여 잘못된 예측을 유도
🔻 하위 유형: Evasion Attack (회피 공격)
-> 적대적 예제를 통해 모델의 정상 분류 경계를 회피하는 공격
1. Targeted Attack (표적 공격)
- 목표: 지정한 특정 클래스로 잘못 분류되게 유도
- 예시: [Carlini & Wagner, 2017] – MNIST, CIFAR 이미지 변경
2. Physical World Attack (물리 환경 공격)
- 목표: 실제 물리 세계에서도 공격 효과 유지
- 예시: 도로 표지판에 스티커 붙여 잘못 인식 유도
- [Eykholt et al., CVPR 2018]: 실외 실험에서 84.8% 성공률
3. Adversarial NLP (텍스트 입력 공격)
- 텍스트 모델에 적용된 적대적 공격
- 예시: 논문 추천 시스템을 속이는 입력 조작
- [USENIX Security 2023]
AI Robustness – 적대적 공격
│
├── Adversarial Example (기본 개념)
│ ├── Evasion Attack (모델 속이기)
│ │ ├── Targeted Attack (특정 클래스 유도) ← [Carlini & Wagner, 2017]
│ │ ├── Physical World Attack (현실 물체 교란) ← [CVPR 2018]
│ │ └── Adversarial NLP (텍스트 입력 공격) ← [USENIX 2023]
방어 기법
Adversarial 공격에 대한 방어 방법
- Adversarial Training: 공격 예제를 포함한 재학습
- Input Transformation: 입력을 정규화/복원
- 예: Denoiser 사용
- Model Ensemble: 여러 모델 조합
Poisoning Attack
🔸데이터 중독 공격
- 학습 데이터에 악성 샘플을 포함시킴
- 백도어(backdoor)를 심거나 이상 행동 유도
🔸대응 방법
- 데이터 정제: 이상치 탐지, data sanitization
Security for AI: Data Protection and Privacy
데이터 보호 필요성
- 실제 유출 사례:
- Strava 앱을 통해 미군 기지 위치 노출
- LLM (GPT-2, GPT-3.5)에서 학습 데이터가 그대로 출력됨
- '이루다' 챗봇 사건: 개인정보(주소, 이름 등) 유출 → 서비스 종료
프라이버시 보호 기술
1. 동형 암호 (Homomorphic Encryption)
- 암호화된 상태로 연산 가능
- 데이터 유출 없이 AI 연산 가능
- encrypt-then-compute 원리 사용
2. HEtail (ICML 2023 논문)
- 전이 학습에서 프라이버시 보존 학습 가능
- 클라이언트가 암호화된 데이터 전송 → 서버가 학습
모델 보호
Model Privacy
- 모델 워터마킹 등 IP 보호 기술
- AAAI 2024 논문 사례: EncryptIP
AI for Security: 인공지능을 활용한 보안
이상 탐지 (Anomaly Detection)
1. 기본 개념
- 정상 패턴과 다른 데이터 = 이상(anomaly)
- 비지도 학습 또는 준지도 학습 필요
2. 탐지 접근 방식
- Prediction-based: 미래 값 예측 후 오차 기반 탐지 (RNN, LSTM, Transformer)
- Reconstruction-based: 오토인코더로 입력 재구성 후 차이 기반 탐지
LLM 기반 보안 분석
적용 예시:
- 역공학 (Reverse Engineering): GPT-4로 바이트코드 분석
- 버그 탐지: 반복 코드 블록에서 오류 탐색
- 피싱/스팸/악성코드 탐지
- 보안 로그 분석
⇒ 정확도 100%가 필요 없는 작업에서 LLM은 실용적임 (e.g. 위협 인텔리전스)
요약 정리
| 영역 | 기술 | 설명 |
| 데이터 보호 | 동형암호, DP, MPC, TEE | 암호화된 데이터로 연산하거나 노이즈 추가 |
| 모델 보호 | 워터마킹, 암호화 | 지적재산권(IP) 보호 |
| AI 보안 응용 | 이상 탐지, 코드 분석, 스팸 필터 | RNN, Transformer, Autoencoder, GPT-4 사용 |
'컴퓨터 보안' 카테고리의 다른 글
| Topic 04. Blockchain (1) | 2025.06.06 |
|---|---|
| 13장-Digital Signature (0) | 2025.05.30 |
| 10장-기타 공개키 암호 시스템 (1) | 2025.05.27 |
| 9장-공개키 암호 & RSA (0) | 2025.05.13 |
| 12장-MAC (0) | 2025.05.11 |