음악

3D 오디오 없는 UHD/한겨레신문

이윤진이카루스 2015. 2. 9. 12:49

경제

IT

3D 오디오 없는 UHD…‘개 발에 편자’

등록 : 2015.02.08 12:00 수정 : 2015.02.08 21:10

ETRI 연구진들이 이번에 국제표준으로 인정받은 멀티채널 오디오 헤드폰 재생기술을 3D 영화를 보며 시연해 보이고 있다. 사진 한국전자통신연구원 제공 

진짜보다 실감나는 오디오 기술

방송통신위원회는 지난달 초고화질(UHD) 방송의 시범 방송을 올해 하반기부터 실시하겠다고 발표했다. 논란은 있지만 고화질(HD) 방송에 이은 초고화질 방송 시대가 멀지 않았음을 알려준다. 유에이치디는 화소가 에이치디보다 4배가 높게 촬영돼 일반 화면도 입체영상처럼 느껴질 정도로 선명하다. 하지만 사람의 오감에서 시각보다 더 민감한 것이 청각이다. 눈은 2배의 주파수 곧 400~800㎚(나노미터·1㎚는 10억분의 1m)의 가시광선을 인식할 수 있는 데 비해 귀는 가청 주파수 대역이 20~2만㎐(헤르츠)여서 1000배의 민감도를 보인다. 아무리 3D 같은 느낌의 유에이치디 영상이라도 이에 걸맞은 오디오가 없다면 ‘앙꼬 빠진 찐빵’에 불과할 것이다. 한국전자통신연구원(ETRI) 오디오연구부는 유에이치디 시대에 적용할 여러 실감 음향 시스템을 개발하고 있다. 이태진 전자통신연 오디오연구실장은 “실감 오디오 기술이란 음원 발생지와는 다른 곳에서 청취자가 음원이 발생한 공간과 같은 방향감과 거리감, 공간감을 느낄 수 있도록 해주는 기술로 미래 미디어의 필수 요소”라고 말했다.

ETRI 연구진들이 개발에 성공한 차세대 다채널 오디오 프로세서 기술로 영화를 관람하고 있다. 사진 한국전자통신연구원 제공
오디오 기술은 영화와 함께 발달해왔다. 모노 방식이던 초기 영화 오디오를 2채널 입체음향으로 바꾼 사람은 영국 전기기술자 앨런 블룸라인이다. 그는 함께 영화를 보러 온 부인이 한쪽에서만 들려오는 소리로 어느 배우의 목소리인지 구분하기 어렵다고 불평하자 이를 해결해주려고 2개의 채널로 된 음향체계를 만들었다. 그가 발명한 이 기술은 스테레오라 불렸다. 이 말의 어원인 그리스어 ‘스테레오스’는 3차원이라는 의미이지만 아이러니하게도 2차원 사운드를 뜻하는 말로 굳었다. 1976년 공상과학 영화 <스타워즈>가 인기몰이를 한 데는 최초로 극장용 스테레오가 적용된 것도 한몫했다.

ETRI 오디오연구부 실감음향 연구 박차
32개 스피커로 현장감 높은 소리 연출
TV앞 사운드바 배열해 극장 효과 재현
음성과 배경음 분리 방식도 선호 추세

1992년 <배트맨 리턴즈>와 1993년 <쥬라기공원>은 각기 다른 방식의 5.1채널 입체음향을 선보인 영화들이다. 스크린 쪽에 배치된 3개의 스피커와 관객석 뒤에 배치된 2개의 스피커, 저주파 효과음을 위한 1개의 저음 서브 우퍼가 현장감을 높인 음향을 만들어냈다. 현재 대부분의 극장은 5.1 또는 7.1 시스템으로 운영되고 있다. 하지만 이들 시스템은 빈 영역이 많아 실감나는 음향을 만들어내는 데는 한계가 있다. 전자통신연은 오디오 공급업체인 소닉티어와 함께 STA32/16 시스템을 개발해 완벽한 3차원 음향을 구현해냈다. STA32는 스크린 뒤에 3개 열로 5개씩 15개의 스피커, 관객석 좌우와 뒤에 3개씩 9개의 서라운드 스피커, 천장에 2개 열로 3개씩 6개의 스피커를 배치하고 2개의 서브 우퍼를 둔 체계이다. 현재 서울 여의도 국제금융센터(IFC) 안 씨지브이(CGV) 9개관을 비롯해 20여개 영화관에 설치돼 있다. 이 시스템이 설치된 곳에서는 눈에 보이지 않는데도 헬리콥터가 관람자 머리 뒤쪽에서 날아오는 듯한 느낌을 경험할 수 있다. 실제로 지난해 이들 극장에서 영화 <명량>을 관람한 관객들은 다른 극장에서보다 훨씬 실감나는 음향을 감상할 수 있었다. 마치 자신이 전장터 한가운데 있는 듯한 느낌을 받았다. 특히 5.1채널에서는 구현하지 못한 수직 입체감까지 느낄 수 있다.

이런 여러 채널의 음향 제작이 가능한 것은 대부분 영화 음향이 촬영 이후 사후 제작되기 때문이다. 촬영 현장에서 녹음된 음향은 실제 영화에서는 거의 쓰이지 않는다. 심지어 배우들의 대사도 많은 부분이 음향 스튜디오에서 다시 녹음된다. 편집실에서 재가공된 음향은 32개 스피커를 통해 적절히 재현됨으로써 관객들이 실제보다도 더 실감나는 소리를 들을 수 있게 되는 것이다.

전자통신연은 유에이치디 방송에 대비해 삼성전자와 함께 10.2채널을 한국정보통신기술협회(TTA) 표준으로 등록했다. 기존 5.1채널에 좌우 2개, 전면 2개, 천장에 1개의 스피커를 더 배치하고 우퍼도 1개 추가하는 형태다. 그러나 일반 가정에서 10.2채널이나 STA32/16 시스템을 설치하기는 쉽지 않다. 가정용 티브이에 적용하려면 여러 대의 스피커를 일렬로 배열하는 스피커 어레이 기술이 필요하다. 기반이 되는 것은 파면합성기술(WFS)이다. “주 음원에서 발생한 음파를 음파의 전면에 배치된 여러 음원을 이용해 재구성할 수 있다”는 하위헌스(호이겐스)의 원리를 바탕으로 스피커를 여러 개 배치한 사운드바를 이용해 음장(소리가 발생한 현장의 느낌)을 재현해준다. 장대영 전자통신연 책임연구원은 “물결파와 같은 음파 동심원의 한 지점을 2차 음원으로 삼아 동심원을 그리면 이 동심원들로 만들어지는 공통면이 2차 파면을 형성하고, 이 파면을 보면 원래의 음원을 알 수 있게 된다”고 설명했다. 곧 파면합성기술은 전달된 소리 정보를 이용해 가상의 음장을 만들어내 실감나는 음향을 생성하는 기술이다. 현재도 텔레비전이 얇아지며 나빠진 음향을 보완하려 사운드바를 설치하기도 하지만 파면합성기술이 적용된 것은 아니어서 음장을 재현해주지는 못한다. 파면합성기술은 독일, 네덜란드, 스페인 등 유럽을 중심으로 개발 중이며 우리나라에서는 전자통신연과 서울대, 카이스트 등이 연구하고 있다.

ETRI 연구진들이 이번에 국제표준으로 인정받은 멀티채널 오디오 헤드폰 재생기술을 3D 영화를 보며 시연해 보이고 있다. 사진 한국전자통신연구원 제공
실감 오디오 기술은 개인이 사용하는 헤드폰에도 적용되고 있다. 헤드폰을 사용하면 소리가 머릿속에만 맺혀 현실감이 떨어진다. 외재화 기술을 이용하면 소리가 헤드폰 바깥에 있는 스피커에서 나는 것처럼 현장감을 높일 수 있다. 사람의 머리 모양을 본뜬 ‘더미헤드’를 이용해 여러 개의 마이크로 녹음을 하고 사람 귀에 의한 소리의 회절과 반사효과를 추가적으로 더해줘 ‘홀로포닉 사운드’를 만든다. 홀로포닉 사운드는 인터넷에서 쉽게 검색해 경험할 수 있다.

음성과 배경음의 정보를 별도로 제공하는 방식에 관한 연구도 진행되고 있다. 2012년 영국 <비비시>(BBC)와 독일 프라운호퍼연구소는 아나운서의 해설과 배경음을 따로 방송해 사람들한테 들려주고 설문조사를 했다. 그 결과 원래 영상보다는 목소리를 키운 방송과 배경음을 키운 방송을 선호하는 비율이 더 높게 나왔다. 사람들이 맞춤형으로 소리를 조절해 듣고자 하는 욕구가 있다는 뜻이다.

전자통신연은 가수 목소리, 피아노, 드럼, 기타 등의 소리 정보를 따로 제공해 청취자가 음원을 임의로 조합하거나 소리 크기를 조절할 수 있는 뮤직2.0 방식을 개발해 내놓기도 했다. 한때 에스지(SG)워너비 등 여러 가수가 50여장의 앨범을 만들었지만 목소리만 듣는 데 대한 가수들의 거부감 등으로 확산되지는 못하고 있다.

대덕연구단지/이근영 선임기자 kylee@hani.co.kr


진짜 그래요?

원래 내 목소리를 실시간으로 자신도 들을 수 있다?

사람의 목소리는 허파에서 압축된 공기가 기관을 통과한 뒤 성대와 식도, 후두개, 연구개를 거쳐 혀를 통과하며 만들어진다. 사람마다 음성이 다른 이유다. 성대모사는 목소리가 아니라 말하는 방법을 흉내내는 것이다. 내 입을 통해 공기로 나간 소리의 정보는 내 귀의 고막을 통해 뇌에 전달되지만 고막 대신 머리뼈가 진동해 전달되는 정보도 있다. 이를 골전도라 하며, 이를 이용한 골전도 이어폰과 전화기가 시판되고 있다. 이 골전도 때문에 내가 듣는 내 목소리와 다른 사람이 듣는 내 목소리가 다르다. 내 목소리를 녹음해 들으면 달리 들리는 이유다. 머리뼈를 진동시켜 듣는 소리는 저음이어서, 다른 사람이 듣는 내 목소리는 내가 듣는 것보다 고음이다. 실시간으로 골전도로 전달되는 정보를 빼내어 자신한테 되돌려주는 장치를 만들기는 어렵다.

물속에서도 대화를 할 수 있다?

소리는 공기 중에서 초당 340m의 속도로 움직인다. 소리는 매질을 통해서 전달된다. 소리는 기체보다는 액체에서, 액체보다는 고체에서 더 빨리 전달된다. 물에서는 공기에서보다 4배, 철에서는 15배 빠르다. 서부영화에서 인디언들이 땅에 귀를 대고 기차가 오는 것을 알아채는 것은 소리가 땅에서 훨씬 빨리 전달되기 때문이다. 물속에서 말소리는 공기 중에서보다 훨씬 빨리 전달된다. 하지만 목소리는 숨을 내뱉는 행위로 성대가 울려 나는 소리라, 실제론 물속에서 대화를 하기는 힘들다. 설령 내뱉는 숨으로 몇 마디 하더라도 에너지가 소비돼 산소 부족으로 오랜 시간 견딜 수 없다.

PCM, FLAC보다 MP3 음질이 더 좋다?

우리는 소리 에너지가 공기 중의 압력(음압)을 다르게 해 진동한 것을 소리로서 인지한다. 음압과 진동을 저장하면 재생이 가능하다. 자연 그대로의 음압과 진동, 곧 원음을 그대로 저장하는 아날로그 방식이 PCM, WAV 등이다. 이 방식은 용량이 큰 것이 흠이다. 이 파일을 디지털 부호로 바꾸되 부호가 반복되는 구간만 줄여 용량을 최대 50%까지 줄이는 방식이 FLAC이다. 이와 달리 MP3는 정보를 어느 정도 희생시키더라도 사람들이 느낄 수 있는 선까지 필요없는 신호들을 생략하는 방식이다. 독일 프라운호퍼연구소가 1992년에 개발한 방식으로, 우리나라는 한해 수백억원의 기술료를 지급하고 있다. 최근 일부 젊은이들이 MP3 음질이 더 좋다고 말하지만 MP3에 익숙해진 주관적인 느낌일 가능성이 높다.