Topic 05. Artificial Intelligence and Security

AI와 보안

1. Security for AI (AI를 보호)

🔸공격 유형

공격 목표	학습 단계 공격 예시	대응 방법	추론 단계 공격 예시	대응 방법
무결성 (Robustness)	데이터 중독, 백도어 삽입	데이터 정제, 이상치 탐지	회피 공격 (적대적 예제 등)	적대적 학습, 모델 앙상블
모델 기밀성 보호	모델 도난, 공유 모델 탈취	모델 암호화, 워터마킹, TEE	모델 추출	모델 워터마킹
데이터 기밀성 보호	사용자 정보 유출	개인정보 보호형 ML (HE, MPC, TEE)	모델 반전, 멤버십 추론	차등 프라이버시(DP), PPML

🔸용어 설명 (중요 기술 개념)

용어	개념 요약	쉽게 풀어쓴 설명 / 예시
적대적 예제	모델을 속이기 위한 미세한 교란이 들어간 입력	이미지에 사람이 못 느낄 정도로 작은 노이즈를 더해 모델이 '고양이'를 '개'로 잘못 분류하게 만드는 공격
모델 워터마킹	모델 내부에 고유 정보를 삽입해 불법 복제를 추적	누군가 내 모델을 훔쳐 썼을 때, 정해진 질문을 던져 내가 만든 것임을 증명할 수 있게 만듦
동형암호 (HE)	암호화된 상태에서도 연산 가능한 방식	데이터를 클라우드에 보내더라도 암호를 풀지 않고 계산이 가능 → 정보 유출 걱정 없이 AI 학습 가능
다자간 연산 (MPC)	여러 참여자가 각자 비밀 데이터를 나누어 계산하는 방식	여러 병원이 환자 데이터를 공유하지 않고도 함께 AI 진단 모델을 학습시킬 수 있게 해줌
신뢰 실행 환경 (TEE)	CPU 내부의 격리된 공간에서 민감 데이터를 안전하게 처리	예: 암호화된 의료 데이터를 CPU 내부 안전 구역에서만 열고 계산함. 외부에서 접근 불가
차등 개인정보 보호 (DP)	결과에 노이즈를 추가해 특정 개인 정보 노출을 방지	설문 통계를 낼 때 개인 응답은 보호하면서 전체 평균은 정확하게 유지하는 방식

2. AI for Security (AI를 활용한 보안)

악성코드 탐지
스팸 필터, 피싱 탐지
보안 로그 분석 (threat intelligence)

CNN 소개 및 학습

🔸CNN (Convolutional Neural Network)

특징 추출 + 분류 구조
구성 요소:
- Convolution layer
- Pooling layer (max pooling)
- Activation function (ReLU)
- Softmax (출력 확률 분포)

🔸학습 개념

파라미터(θ)를 조정하며 오차(Reducing Error)를 최소화
그림에서 θ=2 -> θ=3 -> θ=4 로 가며 최적 파라미터 탐색

AI Robustness – 적대적 공격

🔸Adversarial Example (적대적 예제)

전체 개념:
-> 사람 눈엔 차이 없지만, AI는 완전히 다른 출력을 낼 수 있음
-> AI 입력에 아주 작은 노이즈(perturbation)를 추가하여 잘못된 예측을 유도

🔻 하위 유형: Evasion Attack (회피 공격)

-> 적대적 예제를 통해 모델의 정상 분류 경계를 회피하는 공격

1. Targeted Attack (표적 공격)

목표: 지정한 특정 클래스로 잘못 분류되게 유도
예시: [Carlini & Wagner, 2017] – MNIST, CIFAR 이미지 변경

2. Physical World Attack (물리 환경 공격)

목표: 실제 물리 세계에서도 공격 효과 유지
예시: 도로 표지판에 스티커 붙여 잘못 인식 유도
[Eykholt et al., CVPR 2018]: 실외 실험에서 84.8% 성공률

3. Adversarial NLP (텍스트 입력 공격)

텍스트 모델에 적용된 적대적 공격
예시: 논문 추천 시스템을 속이는 입력 조작
[USENIX Security 2023]

AI Robustness – 적대적 공격
│
├── Adversarial Example (기본 개념)
│   ├── Evasion Attack (모델 속이기)
│   │   ├── Targeted Attack (특정 클래스 유도) ← [Carlini & Wagner, 2017]
│   │   ├── Physical World Attack (현실 물체 교란) ← [CVPR 2018]
│   │   └── Adversarial NLP (텍스트 입력 공격) ← [USENIX 2023]

방어 기법

Adversarial 공격에 대한 방어 방법

Adversarial Training: 공격 예제를 포함한 재학습
Input Transformation: 입력을 정규화/복원
- 예: Denoiser 사용
Model Ensemble: 여러 모델 조합

Poisoning Attack

🔸데이터 중독 공격

학습 데이터에 악성 샘플을 포함시킴
백도어(backdoor)를 심거나 이상 행동 유도

🔸대응 방법

데이터 정제: 이상치 탐지, data sanitization

Security for AI: Data Protection and Privacy

데이터 보호 필요성

실제 유출 사례:
- Strava 앱을 통해 미군 기지 위치 노출
- LLM (GPT-2, GPT-3.5)에서 학습 데이터가 그대로 출력됨
- '이루다' 챗봇 사건: 개인정보(주소, 이름 등) 유출 → 서비스 종료

프라이버시 보호 기술

1. 동형 암호 (Homomorphic Encryption)

암호화된 상태로 연산 가능
데이터 유출 없이 AI 연산 가능
encrypt-then-compute 원리 사용

2. HEtail (ICML 2023 논문)

전이 학습에서 프라이버시 보존 학습 가능
클라이언트가 암호화된 데이터 전송 → 서버가 학습

모델 보호

Model Privacy

모델 워터마킹 등 IP 보호 기술
AAAI 2024 논문 사례: EncryptIP

AI for Security: 인공지능을 활용한 보안

이상 탐지 (Anomaly Detection)

1. 기본 개념

정상 패턴과 다른 데이터 = 이상(anomaly)
비지도 학습 또는 준지도 학습 필요

2. 탐지 접근 방식

Prediction-based: 미래 값 예측 후 오차 기반 탐지 (RNN, LSTM, Transformer)
Reconstruction-based: 오토인코더로 입력 재구성 후 차이 기반 탐지

LLM 기반 보안 분석

적용 예시:

역공학 (Reverse Engineering): GPT-4로 바이트코드 분석
버그 탐지: 반복 코드 블록에서 오류 탐색
피싱/스팸/악성코드 탐지
보안 로그 분석

⇒ 정확도 100%가 필요 없는 작업에서 LLM은 실용적임 (e.g. 위협 인텔리전스)

요약 정리

영역	기술	설명
데이터 보호	동형암호, DP, MPC, TEE	암호화된 데이터로 연산하거나 노이즈 추가
모델 보호	워터마킹, 암호화	지적재산권(IP) 보호
AI 보안 응용	이상 탐지, 코드 분석, 스팸 필터	RNN, Transformer, Autoencoder, GPT-4 사용

'컴퓨터 보안' 카테고리의 다른 글

Topic 04. Blockchain (1)	2025.06.06
13장-Digital Signature (0)	2025.05.30
10장-기타 공개키 암호 시스템 (1)	2025.05.27
9장-공개키 암호 & RSA (0)	2025.05.13
12장-MAC (0)	2025.05.11

AI와 보안

CNN 소개 및 학습

AI Robustness – 적대적 공격

방어 기법

Poisoning Attack

Security for AI: Data Protection and Privacy

프라이버시 보호 기술

모델 보호

AI for Security: 인공지능을 활용한 보안

LLM 기반 보안 분석

요약 정리

'컴퓨터 보안' 카테고리의 다른 글

티스토리툴바