모달리티 — 데이터 종류의 한 덩어리

5/6
first encountered · 2026-05-27
Written 2026-05-27 16:56 · Updated 2026-05-27 17:15 · 2 versions

내 한 줄 (Feynman)

모달리티는 데이터종류의 한 묶음, 덩어리임.

자세히

모달리티(modality)는 AI/ML 에서 데이터의 종류 / 형태 를 가리키는 용어. 사람의 5 감각 채널 비유로 이해 가능 — 시각(이미지 / 비디오), 청각(오디오), 텍스트는 별도 모달리티 (자연어 — 인간 고유 추상 표현 채널).

대표 모달리티

  • 텍스트 — 자연어, 코드, 구조화 문서
  • 이미지 — 사진, 그림, 차트, 스크린샷
  • 오디오 — 음성, 음악, 환경음
  • 비디오 — 이미지의 시간 시퀀스 + 오디오 동기

그 외 모달리티

  • 3D 메시 / 포인트클라우드 (게임, AR/VR, 의료 이미징)
  • 센서 데이터 (IMU, LiDAR, 자율주행)
  • 게놈 시퀀스 / 단백질 구조 (생물정보학)
  • 시계열 데이터 (주가, 센서 로그)
  • 표 / 그래프 / 관계형 데이터

어원

modal(mode 의 형용사) + -ity(명사화). 어근이 modal window (모달창) 와 같음 — 둘 다 "특정 방식 / 형태를 강제하는" 어감 공유. 웹 개발의 모달창은 "다른 인터랙션을 막고 특정 형태의 입력을 강제하는 창", AI 의 모달리티는 "특정 형태의 데이터 채널".

역사적 맥락

용어가 본격 일반화된 시점은 2022-2024 transformer 기반 multi-modal 모델 폭발 (CLIP, DALL·E, GPT-4V, Gemini, Omni 시리즈). 이전엔 모달리티 별 별도 모델 (CNN for 이미지, RNN for 시계열, LSTM for 텍스트) — 각 모달리티가 격리된 ecosystem. 지금은 통합 모델 (transformer + attention) 이 다중 모달리티 native 처리 가능.

어떻게 쓰는가

모델 종류별 분류

  • 단일 모달리티 모델 = 한 모달리티만 다룸 (예: 초기 GPT 텍스트만, 초기 Whisper 음성만)
  • 멀티모달 모델 = 여러 모달리티를 함께 input/output (예: 텍스트 + 이미지 동시 입력, GPT-4V)
  • Cross-modal 모델 = 한 모달리티 → 다른 모달리티 매핑 (예: CLIP — 텍스트와 이미지를 같은 의미 공간에 정렬, image search 의 기반)
  • Generative cross-modal = 텍스트 → 이미지 (DALL·E, Imagen, Stable Diffusion), 텍스트 → 비디오 (Sora, Veo), 텍스트 → 오디오 (MusicLM)
  • Omni 모델 = 단일 모델이 모든 모달리티를 input/output native 처리 (GPT-4o, Gemini Omni)

파이프라인 vs Omni — 음성 챗봇 예시

  • 기존 파이프라인 방식: 모달리티마다 별도 모델 — STT(음성→텍스트) → LLM(텍스트→텍스트) → TTS(텍스트→음성). 단계마다 레이턴시 누적 (200-500ms × 3) + 정보 손실 (음성 톤 / 망설임 / 강조가 STT 에서 사라짐 → LLM 이 감정 인지 못함)
  • Omni 모델 방식: 단일 모델 안에서 native 처리 — 파이프라인 함정 회피, 톤 보존, 단일 호출 빠름

응용 시나리오

  • 교육 AI: 시험 문제 사진 + 음성 질문 동시 input → 풀이 텍스트 + 시각 표시 output (ExamAce 같은 서비스)
  • 화상 통화 실시간 분석: 비디오 + 오디오 → 발화 transcription + 화자 감정 분석
  • 멀티모달 코드 review: 스크린샷 + 코드 + 음성 설명 → 통합 피드백
  • 의료 진단: X-ray 이미지 + 환자 음성 호소 + 의무 기록(텍스트) → 종합 진단 보조

개발 시 흔히 쓰는 stack

  • Hugging Face transformers 의 modality-specific handlers (Vision, Audio, Text)
  • OpenAI multi-modal API (GPT-4o, Whisper, DALL·E)
  • Google Gemini API (Vision, Audio, Document)
  • Anthropic Claude vision API (이미지 input)

내 사용

still figuring out...

처음 만난 에피소드

2026-05-27 구글 I/O 2026 정리 답변받으면서 "이게 무슨말이지?" 질문으로 처음 만남. 당장 쓸 일은 없는데 AI/ML 글 읽을 때 이해용.


관련 용어

  • 데이터집합 / 데이터덩어리 / 데이터묶음 / 데이터종류 — 본인이 떠올린 한국어 paraphrase 후보
  • omni-model — 여러 모달리티를 single-call 로 통합 처리하는 모델
  • multimodal — 여러 모달리티를 다루는 모델 일반
  • stt-tts-pipeline — 음성↔텍스트 변환을 LLM 앞뒤로 엮은 파이프라인 (모달리티 변환의 전형)

이전 버전 (1)

2026-05-27· 처음 생각
Feynman처음 들어봤음. 모달이라고 해서 웹의 그 모달창이라고 생각했음.