株式会社voiceware 社長Blog

株式会社voiceware CEO田村のブログです。 会社のこと、技術のこと、日々のこと等、雑多に更新していきます。

タグ:音声合成

九州電力が面白い取り組みを始めていました。

http://www.itmedia.co.jp/news/articles/1806/06/news134.html


IoTサービスでも、声優さんの声でデバイスが喋るようにしたいというニーズはあるようですね!

ちなみに、IoTとは、Internet of Thingsの略称で、身の回りのあらゆるモノがインターネットに繋がる仕組みです。
モノ自体が相互に情報交換し、制御することができるようになります。

IoTによって、家中の電化製品が喋るのも当たり前になるような時代も来るのでしょう。
特に日本では、そういった機械の声を好きなキャラクターの声にしたいという要望が多いように感じます。

今は、声優さんの声のモデルを作成するのに多大なコストが掛かっていますが、我が社の声質変換で手軽にできるようになると、いっきに広がりそうですね!

好きな人やキャラクターの声で毎朝話しかけてもらえると、一日を元気に乗り切れそうな気がしませんか?


株式会社voiceware
代表取締役社長 田村一起
http://voiceware.co.jp 

以前から注目していたコエステーション。
ついにアプリ版が公開されたようです。

簡単に言うと、自分の声で音声合成ができるようになるアプリなのですが、なかなかのクオリティでした。

参考:
https://robotstart.info/2018/04/17/coestation.html 


私も早速使ってみましたが、レベル2までやってみると、「あ、自分の声だな」という印象でした。

今までは、何時間という収録時間、数カ月かかるという音声モデルの作成がここまで短時間で利用できるようになったのは、本当に凄いと思いました。

とはいえ、レベル2でも録音には30分かかりましたね。
音声モデルの作成も、現在は、数十分でできましたが、ユーザー数が多くなると、数日かかることもあるようです。

我々の目標は、さらに時間を短縮して、より手軽に音声モデルを利用できるようにすることです!

アプローチは全く異なりますが、同じように自分の声をモデル化するということを、東芝さんも取り組んでいるということで、改めてニーズがある分野なのだと確信しました。

音声技術の未来が楽しみです!


株式会社voiceware
代表取締役社長 田村一起
http://voiceware.co.jp 

近年、音声認識・音声合成技術については、
様々な企業、研究機関が力を入れて開発していますが、WaveNetの音声を聞いた時は衝撃でした。

ほとんど、人間の音声と変わらないような品質で、知らずに聞かされると音声合成と気付かないと思います。
ぜひ、以下のリンクから一度聞いてみてください。

参考:
https://deepmind.com/blog/wavenet-launches-google-assistant/ 


同じクオリティで声質変換ができたら、本当に、自分の声を好きに変えられますね。

音声合成でできるなら、声質変換でも可能なはず!

音声技術は益々、進歩が加速している分野なので、
我が社も負けように、研究・開発を進めていきます!!


株式会社voiceware
代表取締役社長 田村一起
http://voiceware.co.jp

NHKの番組でAIアナウンサーがニュースを読むそうです。

他局では、しばしば音声合成によるナレーションが登場していましたが、ついにNHKも乗り出しましたか。


参考:


音声合成技術が発達していくと、人間の出番も減るかもしれませんね。
夜中の緊急ニュースはAIが対応するとか。

ただし、ネックとなるのは、やはり音声のバリエーションでしょうか。

前回のブログでもかきましたが、音声合成で一つのモデルを作成するのには、かなりのコストがかかるようです。

当社技術でいろんなキャラクターがどんどん誕生するようになると面白いですね!


株式会社voiceware
代表取締役社長 田村一起
http://voiceware.co.jp

以前、声質変換技術について記事は書いたものの、当社技術の特徴については触れていませんでした。
今回は、voicewareの声質変換技術の特徴について書きたいと思います。

当社技術の特徴は、なんと言っても手軽さ。

例えば、
従来の音声合成技術では、ある人の音声モデルを作成するのに莫大なコストがかかっていました。
まず、声優さんの音声の収録に数日。
そして、その音声を基に、音声モデルを作成するのに数カ月。
そのため、1人の音声モデルを作成するのに、数百万単位のお金がかかっていたそうです。

それに対して、当社技術では、
音声の収録は、30秒。
学習時間は、1分で可能です。
さらに、収録する音声の内容は何でもOKです。
従って、極端な話、既に亡くなっている方でも、音声データさえあれば、音声モデルの作成が可能となります。
さらにさらに、テキストデータを介さずに、その人の声の特徴だけを捉えることが可能なので、多言語対応が容易となります。

実際、中国語、フランス語でも試してみましたが、十分に聞き取れるレベルで変換することができました。

改めて書き上げてみると、我ながら凄い技術だと思います。
まだまだ十分な品質とは言えないですが、品質が向上するとあらゆる分野で活用ができます。

音声合成技術への適用も1年後には、サービス化する予定です。


今週、デモの様子を撮影して頂く予定なので、近々、実際に声質変換する様子の動画も公開できるかと思います。

お楽しみに!!


株式会社voiceware
代表取締役社長 田村一起
http://voiceware.co.jp

このページのトップヘ