모달리티 — 데이터 종류의 한 덩어리
5/6
first encountered · 2026-05-27
Written 2026-05-27 16:56 · Updated 2026-05-27 17:15 · 2 versions
내 한 줄 (Feynman)
모달리티는 데이터종류의 한 묶음, 덩어리임.
자세히
모달리티(modality)는 AI/ML 에서 데이터의 종류 / 형태 를 가리키는 용어. 사람의 5 감각 채널 비유로 이해 가능 — 시각(이미지 / 비디오), 청각(오디오), 텍스트는 별도 모달리티 (자연어 — 인간 고유 추상 표현 채널).
대표 모달리티
- 텍스트 — 자연어, 코드, 구조화 문서
- 이미지 — 사진, 그림, 차트, 스크린샷
- 오디오 — 음성, 음악, 환경음
- 비디오 — 이미지의 시간 시퀀스 + 오디오 동기
그 외 모달리티
- 3D 메시 / 포인트클라우드 (게임, AR/VR, 의료 이미징)
- 센서 데이터 (IMU, LiDAR, 자율주행)
- 게놈 시퀀스 / 단백질 구조 (생물정보학)
- 시계열 데이터 (주가, 센서 로그)
- 표 / 그래프 / 관계형 데이터
어원
modal(mode 의 형용사) + -ity(명사화). 어근이 modal window (모달창) 와 같음 — 둘 다 "특정 방식 / 형태를 강제하는" 어감 공유. 웹 개발의 모달창은 "다른 인터랙션을 막고 특정 형태의 입력을 강제하는 창", AI 의 모달리티는 "특정 형태의 데이터 채널".
역사적 맥락
용어가 본격 일반화된 시점은 2022-2024 transformer 기반 multi-modal 모델 폭발 (CLIP, DALL·E, GPT-4V, Gemini, Omni 시리즈). 이전엔 모달리티 별 별도 모델 (CNN for 이미지, RNN for 시계열, LSTM for 텍스트) — 각 모달리티가 격리된 ecosystem. 지금은 통합 모델 (transformer + attention) 이 다중 모달리티 native 처리 가능.
어떻게 쓰는가
모델 종류별 분류
- 단일 모달리티 모델 = 한 모달리티만 다룸 (예: 초기 GPT 텍스트만, 초기 Whisper 음성만)
- 멀티모달 모델 = 여러 모달리티를 함께 input/output (예: 텍스트 + 이미지 동시 입력, GPT-4V)
- Cross-modal 모델 = 한 모달리티 → 다른 모달리티 매핑 (예: CLIP — 텍스트와 이미지를 같은 의미 공간에 정렬, image search 의 기반)
- Generative cross-modal = 텍스트 → 이미지 (DALL·E, Imagen, Stable Diffusion), 텍스트 → 비디오 (Sora, Veo), 텍스트 → 오디오 (MusicLM)
- Omni 모델 = 단일 모델이 모든 모달리티를 input/output native 처리 (GPT-4o, Gemini Omni)
파이프라인 vs Omni — 음성 챗봇 예시
- 기존 파이프라인 방식: 모달리티마다 별도 모델 — STT(음성→텍스트) → LLM(텍스트→텍스트) → TTS(텍스트→음성). 단계마다 레이턴시 누적 (200-500ms × 3) + 정보 손실 (음성 톤 / 망설임 / 강조가 STT 에서 사라짐 → LLM 이 감정 인지 못함)
- Omni 모델 방식: 단일 모델 안에서 native 처리 — 파이프라인 함정 회피, 톤 보존, 단일 호출 빠름
응용 시나리오
- 교육 AI: 시험 문제 사진 + 음성 질문 동시 input → 풀이 텍스트 + 시각 표시 output (ExamAce 같은 서비스)
- 화상 통화 실시간 분석: 비디오 + 오디오 → 발화 transcription + 화자 감정 분석
- 멀티모달 코드 review: 스크린샷 + 코드 + 음성 설명 → 통합 피드백
- 의료 진단: X-ray 이미지 + 환자 음성 호소 + 의무 기록(텍스트) → 종합 진단 보조
개발 시 흔히 쓰는 stack
- Hugging Face
transformers의 modality-specific handlers (Vision, Audio, Text) - OpenAI multi-modal API (GPT-4o, Whisper, DALL·E)
- Google Gemini API (Vision, Audio, Document)
- Anthropic Claude vision API (이미지 input)
내 사용
still figuring out...
처음 만난 에피소드
2026-05-27 구글 I/O 2026 정리 답변받으면서 "이게 무슨말이지?" 질문으로 처음 만남. 당장 쓸 일은 없는데 AI/ML 글 읽을 때 이해용.
관련 용어
- 데이터집합 / 데이터덩어리 / 데이터묶음 / 데이터종류 — 본인이 떠올린 한국어 paraphrase 후보
- omni-model — 여러 모달리티를 single-call 로 통합 처리하는 모델
- multimodal — 여러 모달리티를 다루는 모델 일반
- stt-tts-pipeline — 음성↔텍스트 변환을 LLM 앞뒤로 엮은 파이프라인 (모달리티 변환의 전형)
이전 버전 (1)
2026-05-27· 처음 생각
Feynman처음 들어봤음. 모달이라고 해서 웹의 그 모달창이라고 생각했음.