Multi Media란?
- 다양한 미디어 요소들을 통합하여 정보를 전달하는 것을 의미한다.
- 즉, 동일한 사건과 동일한 시간, 동일한 상황에서 다른 미디어들을 묶어둔 것이 멀티 미디어이다.
- 주요 특징들
- 복합성 : 텍스트, 이미지, 오디오, 비디오, 애니메이션 등 서로 다른 미디어 유형을 조합하여 사용한다.
- 상호작용성 : 사용자와 콘텐츠 간의 상호작용을 통해 사용자의 참여와 개입을 유도한다.
- 비선형성 : 사용자가 원하는 순서와 방식으로 정보에 접근할 수 있다.
- 디지털 형식 : 아날로그 정보를 디지털 형식으로 변환하여 컴퓨터에서 처리, 저장, 전송이 가능하다.
- 통합성 : 여러 미디어 요소를 하나의 응용 프로그램이나 플랫폼에서 통합하여 제공한다.
Multi Modal이란?
- 인간-컴퓨터 상호작용(HCI)과 인공지능(AI) 분야에서 사용되는 용어로, 여러가지 의사소통 채널이나 감각 양식을 통합하는 것을 의미한다.
- 멀티모달 시스템은 사용자의 입력을 텍스트, 음성, 제스처, 시선, 표정 등 다양한 방식으로 받아들이고, 상황에 맞는 출력을 제공한다.
- 주요 특징들
- 다중 입력 채널(Multi input channels) : 사용자는 키보드, 마우스, 터치스크린, 음성, 제스처 등 다양한 방식으로 시스템과 상호작용할 수 있다.
- 자연스러운 상호작용(Natural interaction) : 사람 간의 의사소통과 유사한 방식으로 컴퓨터와 상호작용할 수 있어 사용자 경험이 향상된다.
- 상황 인식(Context awareness) : 멀티모달 시스템은 사용자의 상황과 맥락을 이해하고, 이에 맞는 적절한 피드백을 제공한다.
- 시너지 효과(Synergy effect) : 여러 모달리티를 통합함으로써 단일 모달리티보다 더 풍부하고 효과적인 상호작용이 가능해진다
- 접근성 향상(Improved accessibility) : 장애나 특수한 상황으로 인해 특정 모달리티를 사용하기 어려운 사용자도 시스템을 활용할 수 있다.
멀티 미디어의 주요 구성 요소들
- Audio(오디오) : 소리와 음악을 통해 정보를 전달하고 감정을 자극하여 사용자 경험을 풍부하게 만든다
- Image(이미지) : 시각적 요소로써 텍스트보다 빠르고 직관적으로 정보를 전달하며, 사용자의 이해를 돕고 흥미를 유발한다.
- Natural Language Processing(자연어 처리) : 사용자와 컴퓨터 간의 상호작용을 더욱 자연스럽고 직관적으로 만들어주며, 정보 검색과 분석을 용이하게 한다.
- Information Retrieval(정보 검색) : 방대한 멀티미디어 데이터베이스에서 사용자가 원하는 정보를 신속하고 정확하게 찾아주는 역할을 한다.
- Networking(네트워킹) : 멀티미디어 콘텐츠를 효과적으로 전송하고 공유할 수 있도록 하며, 원격 협업과 소통을 가능하게 한다.
- Storage Systems(저장 시스템) : 대용량 멀티미디어 데이터를 안정적으로 저장하고 관리할 수 있는 기반을 제공한다.
- CPU Power(성능) : 멀티미디어 콘텐츠의 실시간 처리, 변환, 분석 등을 위한 높은 수준의 연산 능력을 제공한다.
- Video(비디오) : 동적이고 생동감 있는 시각 정보를 전달하여 사용자의 이해와 몰입을 높인다.
- Psychology(심리학) : 사용자의 인지, 감정, 행동 등을 이해하고 이를 반영하여 효과적으로 매력적인 멀티미디어 경험을 설계하는데 도움을 준다.
- HCI(Human-Computer Interaction) : 사용자의 멀티미디어 시스템 간의 상호작용을 설계하고 향상시켜 사용 편의성과 접근성을 높인다.
- Data Compression(데이터 압축) : 멀티미디어 데이터의 크기를 줄여 저장 공간을 절약하고 전송 효율을 높인다.
다양한 인코딩 방식
- ASCII : 7비트 인코딩으로, 영어에서 사용되는 128개의 문자, 숫자, 기호를 표현할 수 있다.
- ASCII-8 : 8비트 인코딩으로 ASCII에서 좀 더 확장된 표현 방식이다.
- Unicode : 16비트 인코딩으로, 65000개 이상의 다양한 문자를 표현할 수 있다.
- 24-bit color : 인간의 눈이 인지할 수 있는 모든 색상 범위를 표현할 수 있다.
- 16-bit sound : 인간의 귀가 인지할 수 있는 모든 범위의 소리를 재상할 수 있다.
아날로그 vs 디지털
- 아날로그 데이터를 디지털 데이터로 바꿨을 때의 장단점은 아래와 같다.
- 장점
- 데이터 저장 및 전송의 효율성 향상
- 디지털 데이터는 압축, 암호화, 오류 정정 등의 기술을 적용할 수 있어 저장 공간을 절약하고 전송 속도를 높일 수 있다.
- 데이터 복제 및 편집의 용이성
- 디지털 데이터는 손실 없이 쉽게 복제할 수 있으며, 다양한 소프트웨어를 통해 편집, 가공, 합성 등이 가능해진다.
- 데이터 검색 및 분석의 편리성
- 디지털 데이터는 검색 알고리즘, 데이터베이스 기술 등을 활용하여 빠르고 정확하게 원하는 정보를 찾을 수 있다.
- 데이터 호환성 및 통합성 증대
- 디지털 데이터는 표준화된 형식을 사용하므로 다양한 장치와 플랫폼 간에 호환성이 높아 데이터 공유가 수월하다.
- 데이터 저장 및 전송의 효율성 향상
- 단점
- 아날로그 데이터의 손실
- 아날로그 -> 디지털 변환 과정에서 양자화와 샘플링으로 인해 원본 데이터의 일부 정보가 손실될 수 있다.
- 높은 초기 비용
- 아날로그 데이터를 디지털로 변환하기 위한 장비, 소프트웨어, 전문 인력 등에 상당한 초기 투자 비용이 소요될 수 있다.
- 기술 의존성 증가
- 디지털 데이터는 특정 하드웨어, 소프트웨어, 파일 포맷 등에 종속되므로, 기술 변화에 따른 데이터 접근성 문제가 발생할 수 있다.
- 데이터 보안 및 프라이버시 이슈
- 디지털 데이터는 해깅, 무단 접근, 불법 복제 등의 보안 위협에 노출될 수 있으며, 개인 정보 유출 등 프라이버시 침해 문제도 발생할 수 있다.
- 아날로그 데이터의 손실
Digitization
아날로그 신호를 디지털 신호로 변환하는 과정에는 샘플링(Sampling)과 양자화(Quantization)이 있다.
- 아날로그 신호는 연속적으로 변화하는 값을 가지는 반면, 디지털 신호는 이산적인 값으로 제한되기 때문에 이러한 과정이 필요하다.
- 샘플링(Sampling)
- Sampling Rate : 단위 시간 당 샘플의 갯수
- 아날로그 신호를 일정한 시간 간격으로 측정하여 이산적인 값을 얻는 과정이다.
- 이미지에서 빨간색 선으로 표시된 부분이 샘플링 지점이다.
- 양자화(Quantization)
- 샘플링된 값을 미리 정의된 몇 개의 레벨로 근사하는 과정이다.
- 이미지에서 파란색 선으로 표시된 부분이 양자화 레벨이다.
- 추가 정보 :
- 아날로그 신호를 왜곡 없이 복원하기 위해서는 신호 대역폭의 2배 이상으로 샘플링해야 한다.
- 양자화 제벨이 높을수록 원래의 아날로그 신호에 가까워지지만, 데이터 크기가 증가한다.
- 디지털 신호는 샘플링된 값을 바이너리 형식으로 저장하고 처리한다.
- 반대로 디지털 -> 아날로그 변환(DAC)을 통해 디지털 데이터를 아날로그 신호로 변환할 수도 있다.
- Bit Rate
- Bit Rate = Sampling rate * Quantization per Sample
나이퀴스트-섀넌 샘플링 정리
- 아날로그 신호는 연속적인 시간에 따라 연속적으로 변화하는 값을 가진다.
- 이 신호를 디지털로 변환하기 위해서는 일정한 시간 간격으로 신호의 값을 샘플링해야 한다. 이때, 샘플링 주파수(sampling frequency)가 충분히 높아야 원래의 아날로그 신호를 정확하게 복원할 수 있다.
- 나이퀴스트-섀넌 샘플링 정리에 의하면 아날로그 신호를 왜곡 없이 복원하기 위한 최소 샘플링 주파수는 아날로그 신호의 최대 주파수(대역폭)의 최소 2배 이상이어야 한다.
- 예를 들어
- 사람의 목소리 신호는 일반적으로 300Hz에서 3,400Hz 사이의 주파수 대역을 가지는데, 이 신호를 왜곡 없이 디지털로 변환하기 위해서는 3,400Hz의 2배인 6,800Hz 이상의 샘플링 주파수가 필요하다. 따라서, 일반적인 전화 시스템에서는 8,000Hz의 샘플링 주파수를 사용해야 한다.
- 반면에, 고품질 오디오 신호는 20Hz에서 20,000Hz 사이의 주파수 대역을 가진다. 이를 왜곡 없이 디지털로 변환하기 위해서는 20,000Hz의 2배인 40,000Hz 이상의 샘플링 주파수가 필요하다. 따라서, CD 품질의 오디오에서는 44,100Hz의 샘플링 주파수를 사용해야 한다.
- 샘플링 주파수가 신호 대역폭의 2배보다 낮을 경우, 에일리어싱(aliasing) 현상이 발생할 수 있다.
- aliasing : 샘플링된 신호가 원래의 신호와 다른 주파수 성분을 가지게 되는 현상으로, 신호의 왜곡을 초래한다.
- 신호 처리에서 표본화를 하는 가운데 각기 다른 신호를 구별해내지 못하게 하는 효과를 가리킨다. 신호가 샘플로부터 다시 구성될 때 결과가 원래의 연속적인 신호와 달라지는 “일그러짐”을 가리킨다.
- aliasing : 샘플링된 신호가 원래의 신호와 다른 주파수 성분을 가지게 되는 현상으로, 신호의 왜곡을 초래한다.
디지털 신호의 특성과 한계
- 특성 : 유효한 신호 값의 제한
- 디지털 신호는 특정 값들만 유효하다.
- 이로 인해 노이즈에 상대적으로 강인하며, 네트워크를 통해 전송되거나 복사되어도 품질이 저하되지 않는다.
- 디지털 신호의 이산적인 값으로 표현되는데, 각 값은 일정한 범위를 가지고 있고, 그 범위 내에서는 동일한 값으로 인식된다. 이 때문에 노이즈로 인해 신호의 값이 약간 변화하더라도, 해당 범위 내에만 있다면 원래의 값으로 해석된다.
- 디지털 신호는 오류 정정 코드(Error Correction Code, ECC)를 사용하여 전송 중에 발생한 오류를 검출하고 정정할 수 있다.
- 디지털 신호는 송신자와 수신자가 동일한 규칙(프로토콜)을 사용하여 신호를 해석하기 때문에 수신자는 수신한 디지털 신호를 원래의 값으로 복원할 수 있다. 이로 인해 복사나 전송 과정에서 품질이 저하되지 않는다.
- 또한 디지털 신호는 전송 거리가 길어질 경우, 중간에 신호를 증폭할 수 있다. 증폭기는 신호를 수신하여 노이즈를 제거하고, 원래의 디지털 값을 재생성하여 전송한다. 이 과정에서 노이즈가 제거되므로, 장거리 전송에도 신호의 품질이 유지된다.
- 한계 : 언더 샘플링(UnderSampling)
- 추가 정보 :
- 나이퀴스트 주파수(Nyquist frequency): 샘플링 주파수의 절반으로, 이 주파수보다 높은 주파수 성분은 샘플링 과정에서 손실되거나 에일리어싱(aliasing) 현상이 발생할 수 있다.
- 사람은 20Khz까지 밖에 듣지 못하기 때문에 최대 40Khz로 설정할 수 있다.
- 안티 에일리어싱 필터(Anti-aliasing filter): 아날로그 신호를 샘플링하기 전에 나이퀴스트 주파수 이상의 주파수 성분을 제거하는 로우패스 필터입니다. 에일리어싱을 방지하고 샘플링된 신호의 품질을 높이는 데 사용된다.
- 나이퀴스트 주파수(Nyquist frequency): 샘플링 주파수의 절반으로, 이 주파수보다 높은 주파수 성분은 샘플링 과정에서 손실되거나 에일리어싱(aliasing) 현상이 발생할 수 있다.
Digital Signal
- 주파수 도메인(Frequency Domain)
- 주기적인 파형은 주파수 성분들의 조합으로 분해될 수 있다.
- 각 주파수 성분은 순수한 사인파이다.
- 주파수 성분들의 집합과 그 진폭이 주파수 도메인에서 파형을 나타낸다.
- 주파수 도메인 표현(주파수 스펙트럼)은 퓨리에 변환(Fourier Transform)을 사용하여 계산할 수 있다.
- 높은 주파수 성분은 abrupt transitions와 관련있다.
- 주기적인 파형은 주파수 성분들의 조합으로 분해될 수 있다.
- 추가 정보 :
- 퓨리에 변환은 시간 도메인의 신호를 주파수 도메인으로 변환하는 수학적 도구이다. 이를 통해 신호를 다양한 주파수 성분들의 조합으로 나타낼 수 있다.
- 주파수 도메인에서의 표현은 신호처리, 필터링, 데이터 압축 등 다양한 분야에서 활용된다.
- 낮은 주파수 성분은 신호의 전반적인 모양과 경향을 나타내고, 높은 주파수 성분은 세부적인 변화와 sharp edge 등을 표현합니다.
- 예를 들어, 저역 통과 필터(Low-pass filter)를 사용하여 높은 주파수 성분을 제거함으로써 신호를 부드럽게 만들 수 있는 반면, 고역 통과 필터(High-pass filter)를 사용하면 낮은 주파수 성분을 제거하여 신호의 세부적인 변화를 강조할 수 있다.
Quantization level 부족으로 인해 발생하는 현상
- image :
- banding
- posterization
- sound :
- coarse hiss : 고주파 영역에서 거친 노이즈가 발생하는 것을 말한다.
- 백색 노이즈나 라디오 수신 시 발생하는 잡음과 유사한 소리로 들린다.
- 특히 오디오 신호에서 두드러지게 나타나며, 음질을 저하시키는 요인이 된다.
- loss of quiet passages : 양자화 레벨이 부족하여, 신호의 동적 범위를 충분히 표현하기 어려울 때 발생
- 조용한 부분이나 미세한 변화가 사라지거나 양자화 노이즈에 묻힐 수 있다.
- general fuzziness : 신호의 세부적인 정보가 손실되어 전반적으로 흐릿하거나 불명확해지는 현상을 말한다
- 음질의 선명도가 떨어지고, 악기 소리나 보컬의 디테일이 손실된다.
- 이는 양자화 오류로 인해 신호의 고주파 성분이 손실되거나 왜곡되기 때문에 발생한다.
- banding 현상 : 양자화 노이즈의 한 형태로, 주로 낮은 비트 심도의 오디오에서 나타난다. 이는 오디오 신호의 동적 범위를 제한된 수의 이산적 레벨로 표현할 때 발생한다.
- coarse hiss : 고주파 영역에서 거친 노이즈가 발생하는 것을 말한다.
- 이러한 현상은 디더링(Dithering)과 같은 기술을 활용하여 양자화 오류를 분산시킴으로써 전반적인 품질을 개선할 수 있다.