음성합성 - 돌핀와우

음성합성과 음성인식 기술은 인공 지능(AI)과 기계 학습 분야에서 매우 중요한 역할을 하고 있습니다. 이 두 기술은 상호 보완적인 성격을 갖지만, 그 작동 원리와 적용 분야에 있어서는 서로 다릅니다.

음성합성 (Text-to-Speech, TTS)

음성합성은 컴퓨터나 기타 전자 장치가 텍스트를 인간의 음성처럼 들리는 오디오로 변환하는 과정입니다. 이 기술의 주요 목적은 기계가 인간의 언어로 자연스럽게 말하도록 하는 것입니다.

음성인식은 사람의 말소리를 텍스트로 변환하는 기술입니다. 이 기술은 사람이 말하는 언어를 인식하고 이해하는 데 중점을 둡니다.

돌핀와우가 개발한 '보이스코드' 다국어 음성합성 편집 화면

돌핀와우는 음성합성 AI기술을 개발하지는 않습니다. 다만, 기존에 잘 개발된 구글의 음성합성 기술을 차용하여 필요한 서비스를 만들고 있습니다.

구글을 선택한 이유는 다국어 음성합성이 필요해서입니다. 구글은 현재 전 세계 40여개의 언어와 220여개의 다양한 음성을 지원하기 때문입니다.

돌핀와우에서 개발한 '보이스코드'에서는 구글의 음성합성 기술을 도입하여 전세계 다양한 언어로 텍스트를 음성으로 변환합니다. 또한, 함께 제공되는 QR코드를 이용하면 음성합성 내용을 들을 수 있습니다.

'보이스코드'에서 제공하는 무료 음성인식 실시간 자막 서비스

음성합성과 더불어 음성인식은 컴퓨터와 소통할 수 있게 하는 중요한 AI 기술입니다. 돌핀와우는 음성인식을 이용해 '실시간 자막 서비스', '스마트 안내판' 등에 적용하였습니다.

이 음성인식은 웹 브라우저에서 작동하게 개발하여 다양한 웹 애플리케이션 제작에 활용하고 있습니다.