음성분리 (Voice Separation)
"음원에서 다양한 소리를 분리하는 AI 기술"
개요
음원분리는 음원에서 다양한 소리별로 분리해 주는 기술입니다. 음원에는 배경음악, 동물 소리, 박수 소리, 악기 소리, 파도 소리 등 다양한 소리들이 존재할 수 있습니다.
이전에는 음성인식 하기 위해 음성 이외의 소리를 제거하는 방식으로 음성을 추출하려고 했습니다. 하지만, 다양한 소리들을 제거하기는 쉽지 않아 음성인식 성능 향상에 걸림돌이 되기도 했습니다.
최근에는 음성 이외의 소리를 제거하기 보다는 음성만을 추출하는 방식을 사용함으로써 보다 효과적인 음성 추출이 가능해지고 있습니다. 음원분리는 음악 음원에서 사람의 목소리, 악기별 소리를 분리하는 기술이 발전하면서 음성만을 분리하는 기술을 사용할 수 있게 되었습니다.
소비자에게 제공되는 미디어, 오디오 컨텐츠들은 모든 채널이 하나의 음원으로 합쳐져서 오디오가 제공되는데, 음원으로부터 음성만을 추출하여 음성인식에 사용할 수 있고, 악기별로 분리하여 MR을 생성할 수 있습니다. 영상을 해외로 수출하게 되면 음원에 저작권이 있어서 해외에 사용할 수 없게 되는데, 이때에도 음원을 제거하여 구매한 음원으로 대체해서 제공할 수 있습니다.
아래 그림은 소비자에게 제공되는 음원으로부터 악기별 소리를 분리해 내는 것을 보여줍니다. 음성도 하나의 악기입니다.

음원이 제공되는 방식

음원분리
특징 (Key Features)
음원분리 기술 (Audio Source Separation)
음원분리는 음원에서 다양한 소리별로 분리해 주는 기술입니다. 음원에는 보컬, 드럼, 기타, 베이스, 키보드 등 다양한 소리들이 존재할 수 있습니다.주요 활용 사례:
MR(Music Rebalance) 생성: 음원에서 특정 악기나 보컬을 제거하여 MR을 생성할 수 있습니다.
악기별 분리: 음원을 악기별로 분리하여 각 악기의 소리를 개별적으로 활용할 수 있습니다.
저작권 대응: 영상 수출 시 저작권 문제가 있는 음원을 제거하고 새로운 음원으로 대체할 수 있습니다.
음성분리 기술 (Voice Separation)
음성분리는 음원에서 음성만을 추출하는 기술입니다. 음원에는 배경음악, 동물 소리, 박수 소리, 악기 소리, 파도 소리 등 다양한 소리들이 존재할 수 있습니다.이전에는 음성인식 하기 위해 음성 이외의 소리를 제거하는 방식으로 했지만, 지금은 음성만을 추출하는 방식을 사용함으로써 보다 효과적인 음성 추출이 가능해지고 있습니다.음성분리를 적용하는 것이 좋은 경우:
배경음악이 들어가 있는 영상: 영화, 드라마 등 배경음악이 포함된 영상에서는 음원분리 후 음성인식을 하는 것이 좋습니다.
회의 및 상담: 일반적으로 조용한 환경에서 녹음을 하기는 하지만 간혹 노이즈가 심할 경우 음성분리를 적용하게 됩니다.
카페 또는 야외 녹음: 배경잡음이 많이 들어가 있는 환경에서 녹음하는 경우 음성분리를 적용하는 것이 좋습니다.
분리된 오디오 출력 (Separated Audios)
음원분리 기술을 통해 다음과 같은 소리들을 분리할 수 있습니다:
Field
Type
Description
vocals
string
보컬 소리
piano
string
피아노 소리
drums
string
드럼 소리
bass
string
베이스 소리
others
string
기타 소리
각 필드는 분리된 오디오 파일의 경로나 URL을 포함합니다. 이를 통해 분리된 각 소리를 개별적으로 활용할 수 있습니다.
기술적 고려사항
음원분리 성능에 영향을 주는 요소
음원분리의 성능은 여러 요소에 의해 영향을 받을 수 있습니다:
음원의 품질
원본 음원의 품질이 낮으면 분리 성능이 저하될 수 있습니다. 고품질의 오디오 입력이 중요합니다.
악기 간 겹침 (Overlap)
여러 악기가 동시에 연주되거나 주파수 대역이 겹치는 경우 분리 정확도가 떨어질 수 있습니다.
배경 소음의 강도
배경 소음이 너무 강하면 음성 추출이 어려울 수 있습니다.
스테레오/모노 채널
스테레오 채널의 경우 공간 정보를 활용하여 더 정확한 분리가 가능할 수 있습니다.
음원의 복잡도
악기 수가 많고 복잡한 음원일수록 분리 성능이 저하될 수 있습니다.
분리 기술의 한계
완벽한 분리는 어렵습니다. 특히 주파수 대역이 겹치는 악기들은 완전히 분리하기 어렵습니다.
일부 악기 소리가 다른 채널에 일부 남아있을 수 있습니다 (bleeding).
원본 음원의 품질이 낮으면 분리 품질도 제한됩니다.
Last updated