Ticket #36166

Open Date: 2016-03-18 14:46

Last Update: 2016-06-02 17:13

JTalk 話者モデルの再評価

Reporter:nishimotoOwner:nishimoto
Priority:5 - MediumMileStone:2016.2jp (closed)
Type:PatchesSeverity:5 - Medium
Component:音声合成Status:Closed
ResolutionNone

Details

今日から配信する jpbeta160318 には、JTalk に mei_h という話者を追加しています。 これは MMDAgent プロジェクトが配布している mei_happy に対応する話者音響モデルです。 (従来の mei は mei_normal に対応します)

オリジナルの話者音響モデルは mei_happy の声がかなり高かったので、 mei と mei_h はだいたい同じ声の高さに聞こえるように、あらかじめ補正しています。

もしかすると mei_h のほうがよくなるかも知れないと思い、 2種類の声を組み込んだバージョンを個人的にしばらく評価しました。 しかし、けっきょく私にはどちらがよいか判断できなかったので、 公開ベータ版に加えてみることにしました。

ちなみにこの他の話者モデル (angry, sad) などは、音素継続長の分散が大きいのか、 文末の発音が間延びしてしまい、テキストの読み上げにはあまり向いていないと判断しました。

mei_h のほうがよい、mei だけでよい、mei と mei_h を使い分けたい、 などご要望をお聞かせいただければありがたいです。

Attachment File

Attachment File ListNo attachments
Add New attachment
Add attachment filesPlease login to add new attachment

Ticket History - 3/6 Histories [Show all old Histories]

2016-03-18 14:46 Updated by: nishimoto

  • New Ticket "JTalk 話者モデルの再評価" created

2016-03-31 12:43 Updated by: nishimoto

Comment

JTalk の音響信号処理のパラメータをいじるための libopenjtalk の調整に着手。 jpbeta160331 (作業中)では、 まだ関数の export 定義を変更しただけで、実際の調整は行っていない。

今日マージした本家 master では eSpeak-NG への移行が行われて、 話速変換ライブラリが sonic になっている。 ただ、sonic は espeak.dll と一緒にコンパイルされているようなので、 JTalk から使いたければ別途統合作業が必要になる。

2016-04-06 23:08 Updated by: nishimoto

Comment

次のベータ版で JTalk mei で「オールパス値」をすこし増やす調整をします。

https://github.com/nvdajp/nvdajpmiscdep/issues/21

同じことが下記で検討されていました。

http://moblog.absgexp.net/openjtalk/

2016-04-28 12:52 Updated by: nishimoto

Comment

そろそろリリース版の方針を固めないといけないのですが、 いまのところの方針案は以下です。

  • mei_h はキャンセル
  • mei のオールパス値変更は現在のベータ版を活かす(2016.1jpと比べると落ち着いた声になる)
  • 現在のベータ版の高さ40、抑揚40の設定がデフォルトになるように基準値を再調整する

2016-05-10 19:34 Updated by: nishimoto

Comment

話者 mei_h をキャンセルしたところ、やっぱり mei_h がよかったというご意見が多いようなので、 jpbeta160510 にて mei の話者モデルを mei_normal から mei_happy (以前の mei_h )に入れ替えました。 高さの補正値は mei_normal よりも 5 だけ下げています。

mei_normal と mei_happy は文字通り感情を込めた音声コーパスから作られた話者モデルなのですが、 happy のほうがコーパス内の韻律の分散が小さく(ピッチの高いほうに偏っている)ため、 統計モデルから生成したパラメータが破綻しにくいことを期待しています。

上書きインストールすると mei_normal.htsvoice が Program Files に残ってしまいますが、 そのままにしておこうと思います。

2016-06-02 17:13 Updated by: nishimoto

  • Ticket Close date is changed to 2016-06-02 17:13
  • Status Update from Open to Closed

Add Comment/Update #36166 (JTalk 話者モデルの再評価)

You are not logged in. I you are not logged in, your comment will be treated as an anonymous post. » Login