VXML(2)-음성 인터넷 환경과 VoiceXML


 

cellpadding="5">

bgcolor="#E9E9E9">

bgcolor="#E9E9E9">

bgcolor="#E9E9E9">

bgcolor="#E9E9E9">

color="#FFFFFF" size="2">◆ 연재목록

href="../asp/news_view.asp?g_serial=8955&g_menu=030311">VXML

(1)-음성 인터넷 환경과 VoiceXML

href="../asp/news_view.asp?g_serial=8933&g_menu=030311">VXML

(2)-VoiceXML 문서 형식

href="../asp/news_view.asp?g_serial=9824&g_menu=030311">VXML

(3)-VoiceXML 시스템 구성 요소

href="../asp/news_view.asp?g_serial=9825&g_menu=030311">VXML

(4)-VXML 음성 서비스의 미래상

2. VoiceXML 문서 형식

1999년 8월 AT&T, IBM, 루슨트, 모토롤러로 구성된 VoiceXML 포럼이

VoiceXML 0.9를 제안한 이래 금년 3월에는 VoiceXML 1.0이 제안되었고

5월 22일 W3C 컨소시엄은 VoiceXML을 월드 와이드 웹의 대화형 마크업

언어 표준으로 공인했다.

VoiceXML 1.0 제안서에서는 XML DTD 형식의 VoiceXML 문서 형식 정의

와 함께, 여기에서 정의된 47가지 태그의 기능 및 의미 사용 예제, 각종

음성 애플리케이션의 실행을 위하여 요구되는 VXML 인터프리터의 구조 및

수행 방식 등에 대해 규정하고 있다.

가장 간단한 VXML 문서는 아래와 같이 작성될 수 있다.

안녕

하세요. VXML입니다.

음성 플랫폼에서 VXML 인

터프리터로 이 문서를 실행시키면 ‘안녕하세요. VXML입니다’라는 음성

메시지를 들을 수 있을 것이다.

문자-음성 변환(TTS, Text-to-speech)을 이용한 음성 합성 기능을 시험

해 볼 수 있는 이 간단한 예는 대화적 요소를 갖고 있지 않지만 일정한 인

사말의 출력 등에 이용될 수 있다. 문서에 사용된 ,

,

등은 HTML 문서 형식을 통해 우리에게 친숙해진 이른바 태그로

서, 태그는 VXML 문서임을 알려주고 있으며 태그는 단위

대화를 나타내는 것이고 태그는 음성 출력을 비롯한 각종 실행

명령을 저장하는 역할을 한다.

음성 인식을 이용한 대화 요소를 갖는 간단한 VXML 문서의 예는 아래와 같

다.

name=”drink”>커피, 녹차, 우유 중 어떤 것을 드시겠습니까?

커피|녹차|우유

next=”

http://www.drink.exam/drink.asp”/>

vxml>

태그는 태그에 의한 입력 안내문 출력,

태그에 의한 음성 입력, 태그 등을 이용한 입력 정보의 처리 등

의 하위 요소 지정을 통하여 한 턴의 대화 시나리오를 표현하는데 이용된

다.

태그는 인식 결과를 지정된 URL의 웹 서버로 전송하여 다음 문

서를 전송 받아 실행할 것을 지정한다. 이 문서에 의해 아래와 같은 대화

의 진행이 가능해진다.

컴퓨터 : 커피, 녹차, 우유 중 어떤 것을 드시겠습니까?사용자 : 홍차컴

퓨터 : 죄송합니다. 이해할 수 없는 입력입니다.

컴퓨터 : 커피, 녹차, 우유 중 어떤 것을 드시겠습니까?사용자 : 커피컴

퓨터 : (http://www.drink.exam/drink.asp?drink=milk 문서를 실행

한다)

위 대화에서 ‘홍차’는 태그에서 지정한 인식 후보에 포함되

지 않기 때문에 ‘nomatch’라는 이벤트가 발생하게 되며 기본 이벤트 처

리에 의하여 잘못된 입력에 대한 안내 메시지가 출력 된다. 또 정해진 시

간 안에 입력을 하지 않으면 ‘noinput’ 이벤트가 발생하여 입력 안내문

을 반복하여 응답을 다시 요구하게 된다.

이 같은 이벤트 처리가 마음에 들지 않는다면 VXML이 제공하는 이벤트 관

련 태그들을 이용하여 대화 과정에서 발생할 수 있는 다양한 이벤트에 대

해 원하는 처리 방식을 지정할 수 있다.

VXML에는 이 밖에도 다수 후보 중 선택에 따른 처리를 좀 더 정돈된 형식

으로 표현하게 해 주는

태그, 숫자 등의 간편한 입력을 위하여 전

화기의 버튼을 통한 입력을 지원하는 태그, 다른 문서의 다이얼로

그를 서브루틴처럼 불러 이용할 수 있게 해 주는 태그, 변

수 사용을 지원하는 , , 태그, 조건부 처리를 지

원하는 태그, 오디오 파일의 출력 및 음성 입력 파일 저장을 지원하

이에 따라 정교한 대화형 음성 서비스 시나리오 작성을 가능하게 하고 있

다. 또한 문서 내부에 JScript로 작성된 코드를 갖도록 허용함으로써 입

력 정보에 대한 복잡한 정보 처리도 가능하게 한다.

실제로 VXML 문서를 작성하는 과정은 프로그램 개발과 유사하며 VXML 문

서 형식은 대화형 음성 서비스 설계를 위한 프로그래밍 언어에 가깝다. 게

다가 기존의 프로그래밍 언어에 비해 문법 및 기능이 간단하고 실행 환경

이 간단한 인터프리터 언어에 해당할 뿐만 아니라, 실행 과정이 이해하기

쉽고 재미있기 때문에 조금만 공부하면 누구나 쉽게 문서 작성이 가능하

다.

문서 형식의 난이도가 그리 높지 않음에도 불구하고 VXML 문서 형식의 시

나리오 표현 능력은 대단히 뛰어나 다양한 음성 서비스의 정교한 표현에 부

족함이 없다. 또한 웹 서버를 매개로 연결되는 많은 문서를 거미줄처럼 치

밀하게 연결된 음성 서비스 콘텐츠의 집약적 개발을 가능하게 한다. 문서

작성은 기존의 에디터만으로도 충분하며 개인 홈페이지에 VXML 문서를 올

림으로써 누구나 음성 서비스 시나리오 작가가 될 수도 있다.

이처럼 여러 가지 면에서 VXML 문서 형식은 웹의 폭발적 인기를 주도했던

HTML 문서 형식과 비슷한 특징을 갖는다. HTML이 웹 서비스로 인터넷 환

경의 새 지평을 열었다면 VXML은 이제 음성 인터넷 환경이라는 또 하나의

새로운 지평을 여는 주역이 될 것이다.

/윤덕호 코난테크놀로지 이사(공학박사) dhyoon@konantech.co.kr








포토뉴스