Pythonで学ぶ音声合成 機械学習実践シリーズ|Tech Book Zone Manatee

マナティ

2950122711000000000z.jpg

購入形態

PDF
3,850円
数量:

カートに追加されました。カートを見る

カートに入れる
紙の本を買う

Pythonで学ぶ音声合成 機械学習実践シリーズ

インプレス

音声合成の基礎から実践までを一冊に凝縮

「音声合成」とは、人間の音声を人工的に作り出す、音声情報処理の一分野です。深層学習の発展に従い、画像認識・音声認識などの分野と同様に、音声合成においてもパラダイムシフトが起きています。本書では、従来の統計的音声合成システムの基礎について解説した上で、深層学習技術による近年の音声合成の発展について詳説しています。また、実際に公開されているデータセットを用いて、深層学習を用いた音声合成システムを作るための実装の解説も行っています。本書は、2020年8月24日刊の『Pythonで学ぶ音源分離』、2021年5月20日刊の『Pythonで学ぶ音声認識』に続く、特定の技術分野のアルゴリズムの紹介と、そのアルゴリズムを実装したコードを解説する、より技術的・実践的な「機械学習実践シリーズ」の3冊目です。中級者以上向け。

発売日:2021-08-12

ページ数:352ページ

目次

表紙
本書の前提
目次
序章
第1章 音声合成とは?
第1節 音声・言語とは?
第2節 広義の音声合成
第3節 テキスト音声合成
COLUMN 音声研究者をクビにすべき?
第2章 音声の情報と物理
第1節 音声の情報的側面:音声の内包する情報
COLUMN イントネーションとアクセントは違う?
COLUMN 朗読音声に現れにくい要素
第2節 音声の物理的側面:音声生成の物理モデル
第3節 本章のまとめ
COLUMN 音声分析合成システムWORLDの由来
第3章 統計的音声合成
第1節 統計モデルに基づく音声合成
第2節 統計的パラメトリック音声合成
第3節 一貫学習に基づく音声合成
第4節 本章のまとめ
COLUMN 音声合成モデルの学習には大規模データが必要?
第4章 Pythonによる音声信号処理
第1節 Python環境の準備
第2節 数値計算のためのPythonライブラリ
第3節 音声ファイルの読み込み
第4節 音声のフーリエ変換
第5節 音声の短時間フーリエ変換とその逆変換
第6節 メルスペクトログラム
第7節 Griffin-Limのアルゴリズムに基づく位相復元
COLUMN 音声合成のためのライブラリnnmnkwiiを作った経緯
第5章 深層学習に基づく統計的パラメトリック音声合成
第1節 はじめに
第2節 DNN音声合成に必要なデータ
第3節 フルコンテキストラベルとは?
第4節 言語特徴量の抽出
第5節 音響特徴量の抽出
第6節 音声波形の生成
第6章 日本語DNN音声合成システムの実装
第1節 本章の日本語音声合成システムの実装
第2節 プログラム実装の前準備
第3節 継続長モデルのための前処理
第4節 音響モデルのための前処理
第5節 特徴量の正規化
第6節 ニューラルネットワークの実装
第7節 学習スクリプトの実装
第8節 継続長モデルの学習
第9節 音響モデルの学習
第10節 学習済みモデルを用いてテキストから音声を合成
COLUMN JSUTコーパスを作った経緯と反省
第7章 WaveNet:深層学習に基づく音声波形の生成モデル
第1節 WaveNetとは?
第2節 自己回帰に基づく音声波形の生成モデル
第3節 WaveNetにおける音声波形の扱い
第4節 因果的な膨張畳み込み
COLUMN 再帰型ニューラルネットワークではだめなの?
第5節 ゲート付き活性化関数を用いた1次元畳み込み
第6節 条件付け特徴量のアップサンプリング
第7節 WaveNetの実装
COLUMN WaveNetが生まれるまでの経緯
第8章 日本語WaveNet音声合成システムの実装
第1節 本章の日本語音声合成システムの実装
第2節 データの前処理
第3節 継続長モデルの学習
第4節 対数F0予測モデルの学習
第5節 WaveNetの学習スクリプトの実装
第6節 WaveNetの学習
第7節 学習済みモデルを用いてテキストから音声を合成
第9章 Tacotron 2:一貫学習を狙った音声合成
第1節 Tacotronとは?
第2節 注意機構付きsequence-to-sequenceモデル
第3節 エンコーダ
第4節 注意機構
第5節 デコーダ
第6節 Post-Net
第7節 Tacotron 2の実装
COLUMN 音声合成とペルソナ
第10章 日本語Tacotronに基づく音声合成システムの実装
第1節 本章の日本語音声合成システムの実装
第2節 Tacotron 2を日本語に適用するための変更
第3節 データの前処理
第4節 Tacotronの学習スクリプトの実装
第5節 Tacotronの学習
第6節 WaveNetボコーダ学習
第7節 学習済みモデルを用いてテキストから音声を合成
COLUMN Tacotronとその発展
第11章 音声合成システムを新たに作るときに
第1節 新しい音声コーパスを作るとき
第2節 より高度な音声合成手法・タスク
参考文献
索引
著者プロフィール
奥付

著者プロフィール

  • 山本 龍一(著者)

    山本龍一(やまもと・りゅういち)
    LINE株式会社Voiceチーム、音声処理開発者・研究者。2013年に名古屋工業大学大学院博士前期課程修了。チームラボ株式会社を経て、2018年2月にLINE株式会社に入社(現職)。2018年9月から2019年7月までNAVER Corp. Clova Voiceチームにて音声研究を行う。音声合成の研究開発に従事。WaveNetやTacotronに代表される音声合成に関するオープンソースソフトウェアを多数公開。

  • 高道 慎之介(著者)

    高道慎之介(たかみち・しんのすけ)
    東京大学大学院情報理工学系研究科助教。2011年に長岡技術科学大学を卒業。2013年・2016年それぞれに奈良先端科学技術大学院大学博士前期・後期課程を修了。2018年より東京大学助教(現職)。博士(工学)。音声合成変換、音声信号処理の研究に従事。

絶賛!発売中!

書籍一覧へ