VXML(3)-음성 인터넷 환경과 VoiceXML


 

cellpadding="5">

bgcolor="#E9E9E9">

bgcolor="#E9E9E9">

bgcolor="#E9E9E9">

bgcolor="#E9E9E9">

color="#FFFFFF" size="2">◆ 연재목록

href="../asp/news_view.asp?g_serial=8955&g_menu=030311">VXML

(1)-음성 인터넷 환경과 VoiceXML

href="../asp/news_view.asp?g_serial=8933&g_menu=030311">VXML

(2)-VoiceXML 문서 형식

href="../asp/news_view.asp?g_serial=9824&g_menu=030311">VXML

(3)-VoiceXML 시스템 구성 요소

href="../asp/news_view.asp?g_serial=9825&g_menu=030311">VXML

(4)-VXML 음성 서비스의 미래상

3. VoiceXML 시스템 구성 요소

지금까지 인터넷과 휴대전화를 결합시킨 음성 인터넷 환경의 유력한 대안으

로 떠오른 VoiceXML(VXML)에 대하여 소개하고 VXML 문서 형식을 간단히

소개했다.

이번엔 VXML 음성 서비스 실현을 위하여 필요한 시스템 구성 요소들에 대

해 좀 더 자세히 살펴보기로 하자.

VXML 시스템은 크게 아래의 그림과 같은 구조를 갖는다.

문서 서버는 VXML 인터프리터의 요청에 따라 VXML 문서를 전송해주는 소

프트웨어 요소로서 홈페이지 운영에 사용되고 있는 웹 서버를 그대로 이용

할 수 있다.

웹 서버는 클라이언트가 요청한 문서를 전송해 주는 일을 하고 있다. 주

로 HTML 관련 문서들을 전송하는 일을 하고 있지만 전송 문서 형식에 특별

한 제약은 없으므로 수정 없이 VXML 관련 문서 전송에 이용될 수 있다.

웹 서버를 이용할 경우 VXML 음성 서비스를 쉽게 인터넷 콘텐츠에 연결시

킬 수 있는 장점이 있다. 특히 웹 서버의 CGI 기능을 이용, 음성 입력 정

보를 새 문서 생성에 반영할 수 있다. 이 때 ASP나 PHP 등을 이용해 데이

터베이스를 연동시킬 경우 주식 시세나 날씨, 스포츠 중계 등의 실시간 처

리가 가능하다.

아쉽게도 기존 인터넷 콘텐츠의 대부분을 차지하고 있는 HTML 관련 문서들

은 구조나 내용이 크게 달라 그대로 이용할 수 없다. 즉 웹 서버 자체는

그대로 이용할 수 있지만 콘텐츠는 새로 구축해야 하는 것이다.

그러나 현재 운영되고 있는 홈페이지들의 구축 기간이 그리 길지 않았음을

감안할 때 일단 많은 이들의 관심을 끌기만 하면 음성 서비스를 위한 새로

운 콘텐츠 구축도 그리 오래 걸리지는 않을 것으로 전망된다.

음성 플랫폼은 음성 입출력 및 통신 기능을 지원하는 하드웨어와 음성 인

식 및 음성 합성 기능을 지원하는 소프트웨어로 구성되는 음성 단말 역할

의 요소로서 VXML 인터프리터의 지시에 따라 음성 합성, 음성 인식, 오디

오 파일 출력, 음성 입력 녹음, DTMF(전화기 버튼) 입력 등의 음성 입출

력을 수행하여 결과를 보고한다.

뿐만 아니라 사용자의 무응답, 각종 제한 시간 초과, 사용자 접속 해제

등 음성 서비스 과정에서 일어날 수 있는 각종 사건을 감지하여 알리는 역

할도 한다.

가장 먼저 VXML 서비스가 실현될 것으로 보이는 음성 플랫폼은 전화기이

다. VXML은 순수한 음성 서비스를 지향하고 있으며 휴대전화의 액정 화면

에 대해서는 고려하지 않고 있다.

고해상도 액정 화면을 갖춘 인터넷 폰이 등장하는 현실을 고려할 때 이에

대한 배려가 앞으로의 숙제가 될 것으로 보인다.

그런데 전화기에는 음성 합성이나 음성 인식 기능이 내장되어 있지 않다.

따라서 자동응답서비스(ARS) 지원을 위해 사용되고 있는 음성 처리 보드

장착 서버에 이들 기능을 심어서 ARS를 VXML 서비스로 대치하는 방안이

유력시되고 있다.

녹음 메시지 출력과 DTMF 입력에 의존하는 기존 서비스에 비해 음성 합성

및 음성 인식 지원, 용이한 서비스 시나리오 작성, 인터넷 콘텐츠 활용이

라는 VXML 서비스를 잘 이용할 경우 자동응답서비스의 놀라운 질적 개선

을 가져올 수 있을 것이다.

연내 실용화가 예상되는 또 다른 음성 플랫폼은 개인용 컴퓨터이다. 음성

브라우저 소프트웨어가 인터넷을 항해하면서 VXML 문서들을 실행해 주는

데 별도의 음성 브라우저 방식과 기존 웹 브라우저에 플러그인시키는 방식

이 모두 가능하다.

게다가 개인용 컴퓨터는 음성 서비스 시나리오 작성자의 작업 환경이기도

하기 때문에 현재 VXML 편집기 등을 덧붙인 통합 개발 환경을 구축하려는

노력이 진행되고 있다. 연내에 네티즌들은 이 통합 개발 환경 소프트웨어

를 이용하여 직접 음성 서비스를 작성, 시험한 후 자신의 홈페이지에 올리

는 한편 남들이 만든 음성 서비스들을 구경하는 즐거움을 맛보게 될 것이

다.

또한 가까운 시일 안에 음성 처리 및 통신 기능이 칩 단위로 소형화되면서

가전제품, 자동차 등 각종 기계 장치의 제어 패널, 홈 오토메이션 설비,

아이들의 장난감 등이 음성 플랫폼으로 자리잡아 편리하고 유용한 음성 인

터넷 환경을 제공하게 될 것이다.

VXML 인터프리터 컨텍스트는 인터프리터 초기화, 사용자 프로필 정보 처

리, 인터프리터 모니터링, 사용자 접속 관리 등 인터프리터 수행에 필요

한 부수적 기능들을 제공함으로써 동일한 인터프리터 모듈이 다양한 수행

환경에 쉽게 이식될 수 있도록 한다.

전체 시스템 구성 요소에서 가장 핵심적인 요소는 역시 VXML 인터프리터

모듈이다. VXML 인터프리터는 내장된 XML 파서를 이용하여 VXML 문서의

구조를 분석한 후 문서에 지시한 내용을 해석하여 그 내용에 따라 제어 구

조를 실행, 음성 플랫폼에 음성 입출력 지시, 음성 플랫폼으로부터의 각

종 이벤트 발생 처리, VXML 인터프리터 컨텍스트로부터의 요구 처리, 문

서 서버를 이용한 새로운 작업 문서로의 전환 등의 다양한 작업을 총괄 지

휘하여 VXML 음성 서비스를 가능하게 하는 사령탑 역할을 하게 된다.

국내의 경우 인터넷 솔루션 전문 업체인 코난테크에 의하여 현재

VoiceXML 1.0 제안을 처리할 수 있는 VXML 인터프리터의 개발이 완료되

었으며 음성 플랫폼과의 연결, 통합 개발 환경의 개발 등도 L&H Korea,

KT 등과의 협력 연구를 통하여 진행중이기 때문에 금년 하반기에는 VXML

음성 서비스 및 소프트웨어 출시가 실현될 전망이다.

/윤덕호 코난테크놀로지 이사(공학박사) dhyoon@konantech.co.kr








포토뉴스