음성합성 : Speech Synthesis

Speech Synthesis

........ 음성합성 (Speech Syethesis) 는 인간의 말 (speech) 을 인공적으로 만드는 것이다. 그런 시스템을 speech synthesizer 라 하고 소프트웨어나 하드웨어로 구현된다. 음성 성 프로그램은 문서를 입력하여 (written input) 자동적으로 생성되는 합성 음성으로 변환하여 출력하는 (spoken output) 것이다. 그래서 음성합성은 가끔 "Text-to-Speech" 변환 (TTS) 로 불리워진다 .......

음성 합성이란 기계적인 장치나 전자회로 또는 컴퓨터 모의를 이용하여 자동으로 음성 파형을 생성해내는 것으로 정의할 수 있다. 음성 합성에 대한 연구는 다른 음성에 관련 기술들보다 가장 먼저 연구된 기술이다. 초기의 음성 합성에 대한 연구는 대부분 기계적 또는 전자회로를 이용하여 인간의 발성기관을 모의하는 것이었다. 인간의 발성기관을 모델링하는 것은 아직까지도 음성 합성 연구에 궁극적인 목표로 남아있지만, 컴퓨터의 연산 속도 및 기억용량이 급속히 발전하면서 음성 합성에 대한 연구는 단순히 인간의 발성기관 모델링에 그치지 않고 문서처리 기술을 포함한 문서-음성 변환 기술로 확장되었다. 음성 합성에 의해 메시지를 전달하는 경우에 다음과 같은 이점이 있다.

① 특별한 주의나 훈련없이 누구라도 쉽게 내용을 이해할 수 있다.
② 이동중이거나 작업중에도 들을 수 있어서 특별히 귀기울이고 있지 않아도 언제든지 정보를 전달할 수 있다.
③ 특별한 장치가 필요없고 전화기가 그대로 사용가능하여 경제적이며 먼곳에도 손쉽게 전할 수 있다.
④ 종이가 필요없다.

음성 합성 기술은 실제 응용 방식에 따라 크게 두 가지로 구분될 수 있다. 제한된 어휘 개수와 구문구조의 문장만을 합성하는 제한 어휘 합성 또는 자동음성응답 시스템 (ARS ; Automatic Response System) 과 임의의 문장을 입력받아 음성 합성하는 무제한 어휘 합성 또는 문서-음성 변환 (TTS ; Text-to-Speech) 시스템이 있다. ............ (오영환 1998)

term :

언어 (Speech) 음성인식 (Speech Recognition) 음성합성 (Speech Systhesis) 음성이해 (Speech Understanding) (Understanding) 자연어이해 (Natural Language Understanding) 자연어처리 (Natural Language Processing) 인공지능 (Artificial Intelligence)

site :

Wikipedia : Speech synthesis

AI Topics : Speech Synthesis

음성 합성의 FAQ : CMU, Andrew Hunt 음성합성 관련 web page

Bell lab 의 test to speech systhesis 와 overview 와 demo

paper :

음성합성 : 오영환

음성생성 : Peter Denes. Elliot Pinson

음성합성기술 개발의 현황과 과제 : 이양희, 대한음성학회, 1994

음성인식 및 합성기술의 현황과 전망 : 오영환, 영남대 차세대 정보통신 국제학술 심포지움, 2000

음성인식과 음성합성에 있어서의 음성학과 음운론의 역할 : 김기호, 대한음성학회, 1994

인터넷 웹페이지의 음성합성을 위한 엔진 및 플러그-인 설계 및 구현 (Design and Implementation of a Speech Synthesis Engine and a Plug - in for Internet Web Page) : 이희만, 김지영, 한국정보처리학회, 2000

키프레임 얼굴영상을 이용한 시청각 음성합성 시스템 구현 (Implementation of Text-to-Audio Visual Speech Synthesis Using Key Frames of Face Images) : 김진영, 김명곤, 백성준, 대한음성학회, 2002

퍼지 벡터 양자화기 사상화와 신경망에 의한 화자적응 음성합성 (Speaker-Adaptive Speech Synthesis based on Fuzzy Vector Quantizer Mapping and Neural Networks) : 이광형, 이진이, 한국정보처리학회, 1997

한국어 음성합성에서 음운 지속시간 모델화 (Segmental duration modeling for Korean text-to-speech synthesis) : 이양희, 대한음성학회, 1996