Pythonで学ぶ音声合成機械学習実践シリーズ

インプレス

山本龍一（著者）、高道慎之介（著者）

音声合成の基礎から実践までを一冊に凝縮

「音声合成」とは、人間の音声を人工的に作り出す、音声情報処理の一分野です。深層学習の発展に従い、画像認識・音声認識などの分野と同様に、音声合成においてもパラダイムシフトが起きています。本書では、従来の統計的音声合成システムの基礎について解説した上で、深層学習技術による近年の音声合成の発展について詳説しています。また、実際に公開されているデータセットを用いて、深層学習を用いた音声合成システムを作るための実装の解説も行っています。本書は、2020年8月24日刊の『Pythonで学ぶ音源分離』、2021年5月20日刊の『Pythonで学ぶ音声認識』に続く、特定の技術分野のアルゴリズムの紹介と、そのアルゴリズムを実装したコードを解説する、より技術的・実践的な「機械学習実践シリーズ」の3冊目です。中級者以上向け。

発売日：2021-08-12

ページ数：352ページ

表紙
本書の前提
目次
序章
第1章音声合成とは？
第1節音声・言語とは？
第2節広義の音声合成
第3節テキスト音声合成
COLUMN 音声研究者をクビにすべき？
第2章音声の情報と物理
第1節音声の情報的側面：音声の内包する情報
COLUMN イントネーションとアクセントは違う？
COLUMN 朗読音声に現れにくい要素
第2節音声の物理的側面：音声生成の物理モデル
第3節本章のまとめ
COLUMN 音声分析合成システムWORLDの由来
第3章統計的音声合成
第1節統計モデルに基づく音声合成
第2節統計的パラメトリック音声合成
第3節一貫学習に基づく音声合成
第4節本章のまとめ
COLUMN 音声合成モデルの学習には大規模データが必要？
第4章 Pythonによる音声信号処理
第1節 Python環境の準備
第2節数値計算のためのPythonライブラリ
第3節音声ファイルの読み込み
第4節音声のフーリエ変換
第5節音声の短時間フーリエ変換とその逆変換
第6節メルスペクトログラム
第7節 Griffin-Limのアルゴリズムに基づく位相復元
COLUMN 音声合成のためのライブラリnnmnkwiiを作った経緯
第5章深層学習に基づく統計的パラメトリック音声合成
第1節はじめに
第2節 DNN音声合成に必要なデータ
第3節フルコンテキストラベルとは？
第4節言語特徴量の抽出
第5節音響特徴量の抽出
第6節音声波形の生成
第6章日本語DNN音声合成システムの実装
第1節本章の日本語音声合成システムの実装
第2節プログラム実装の前準備
第3節継続長モデルのための前処理
第4節音響モデルのための前処理
第5節特徴量の正規化
第6節ニューラルネットワークの実装
第7節学習スクリプトの実装
第8節継続長モデルの学習
第9節音響モデルの学習
第10節学習済みモデルを用いてテキストから音声を合成
COLUMN JSUTコーパスを作った経緯と反省
第7章 WaveNet：深層学習に基づく音声波形の生成モデル
第1節 WaveNetとは？
第2節自己回帰に基づく音声波形の生成モデル
第3節 WaveNetにおける音声波形の扱い
第4節因果的な膨張畳み込み
COLUMN 再帰型ニューラルネットワークではだめなの？
第5節ゲート付き活性化関数を用いた1次元畳み込み
第6節条件付け特徴量のアップサンプリング
第7節 WaveNetの実装
COLUMN WaveNetが生まれるまでの経緯
第8章日本語WaveNet音声合成システムの実装
第1節本章の日本語音声合成システムの実装
第2節データの前処理
第3節継続長モデルの学習
第4節対数F0予測モデルの学習
第5節 WaveNetの学習スクリプトの実装
第6節 WaveNetの学習
第7節学習済みモデルを用いてテキストから音声を合成
第9章 Tacotron 2：一貫学習を狙った音声合成
第1節 Tacotronとは？
第2節注意機構付きsequence-to-sequenceモデル
第3節エンコーダ
第4節注意機構
第5節デコーダ
第6節 Post-Net
第7節 Tacotron 2の実装
COLUMN 音声合成とペルソナ
第10章日本語Tacotronに基づく音声合成システムの実装
第1節本章の日本語音声合成システムの実装
第2節 Tacotron 2を日本語に適用するための変更
第3節データの前処理
第4節 Tacotronの学習スクリプトの実装
第5節 Tacotronの学習
第6節 WaveNetボコーダ学習
第7節学習済みモデルを用いてテキストから音声を合成
COLUMN Tacotronとその発展
第11章音声合成システムを新たに作るときに
第1節新しい音声コーパスを作るとき
第2節より高度な音声合成手法・タスク
参考文献
索引
著者プロフィール
奥付

著者プロフィール

山本龍一（著者）

山本龍一（やまもと・りゅういち）
LINE株式会社Voiceチーム、音声処理開発者・研究者。2013年に名古屋工業大学大学院博士前期課程修了。チームラボ株式会社を経て、2018年2月にLINE株式会社に入社（現職）。2018年9月から2019年7月までNAVER Corp. Clova Voiceチームにて音声研究を行う。音声合成の研究開発に従事。WaveNetやTacotronに代表される音声合成に関するオープンソースソフトウェアを多数公開。
高道慎之介（著者）

高道慎之介（たかみち・しんのすけ）
東京大学大学院情報理工学系研究科助教。2011年に長岡技術科学大学を卒業。2013年・2016年それぞれに奈良先端科学技術大学院大学博士前期・後期課程を修了。2018年より東京大学助教（現職）。博士（工学）。音声合成変換、音声信号処理の研究に従事。

絶賛！発売中！

書籍一覧へ

購入形態

Pythonで学ぶ音声合成 機械学習実践シリーズ

音声合成の基礎から実践までを一冊に凝縮

目次

著者プロフィール

Pythonで学ぶ音声合成機械学習実践シリーズ