以前、声質変換技術について記事は書いたものの、当社技術の特徴については触れていませんでした。
今回は、voicewareの声質変換技術の特徴について書きたいと思います。

当社技術の特徴は、なんと言っても手軽さ。

例えば、
従来の音声合成技術では、ある人の音声モデルを作成するのに莫大なコストがかかっていました。
まず、声優さんの音声の収録に数日。
そして、その音声を基に、音声モデルを作成するのに数カ月。
そのため、1人の音声モデルを作成するのに、数百万単位のお金がかかっていたそうです。

それに対して、当社技術では、
音声の収録は、30秒。
学習時間は、1分で可能です。
さらに、収録する音声の内容は何でもOKです。
従って、極端な話、既に亡くなっている方でも、音声データさえあれば、音声モデルの作成が可能となります。
さらにさらに、テキストデータを介さずに、その人の声の特徴だけを捉えることが可能なので、多言語対応が容易となります。

実際、中国語、フランス語でも試してみましたが、十分に聞き取れるレベルで変換することができました。

改めて書き上げてみると、我ながら凄い技術だと思います。
まだまだ十分な品質とは言えないですが、品質が向上するとあらゆる分野で活用ができます。

音声合成技術への適用も1年後には、サービス化する予定です。


今週、デモの様子を撮影して頂く予定なので、近々、実際に声質変換する様子の動画も公開できるかと思います。

お楽しみに!!


株式会社voiceware
代表取締役社長 田村一起
http://voiceware.co.jp