【紹介】存在しないセリフを言わせよう

こんにちは、墨汁です。

おじいちゃん、えぃあぃは昨日食べたでしょ。

0. はじめに
1 ボイチェン用のデータを作る
- 1.1. アプリケーションの用意
- 1.2. モデルを作る
2. ボイチェン元の音源を用意する
3. 変換したデータをつなぎ合わせて編集する
4. まとめ

0. はじめに

人の子の世俗を知るフェディエル.rvc pic.twitter.com/umeZWcmp7a
— 墨汁 (@theisumania) 2023年7月24日

東山源次を知ったフェディエルとりっちょ.rvc pic.twitter.com/njHKBQpEcP
— 墨汁 (@theisumania) 2023年7月29日

<a href="https://www.nicovideo.jp/user/4102531/series/418515">【ニコニコ動画】RVC</a>

最近こういう動画をちまちま作っています。

見てもらえると嬉しいですが、めんどくさい人のために説明すると

ボイスチェンジャーでキャラクターに変なこと言わせる動画です。

これらどうやって作るのかについて、備忘録も兼ねてサックリまとめます。

やることはザックリ

ボイチェン用のデータを作る
ボイチェン元の音源を用意する
変換したデータをつなぎ合わせて編集する

です。

記事タイトルはセリフですが、お歌でも同様です。

1 ボイチェン用のデータを作る

1.1. アプリケーションの用意

声を変換するためのツールの導入をします。

いろいろありますが、RVCという技術（手法？）を使います。

そのRVCを動かすわけですが、GUIのメジャーどころは3つあります。

github.com

本家。おそらく一番無難。パッケージ版が在るのでDL＆解答で使える。

日本語翻訳されているが難読翻訳。

github.com

派生版。更新頻度はかなりマッチョな方。パッケージ版が在る。

他と比べて最も多機能。日本語翻訳されているが難読翻訳。

github.com

派生版。最低限の機能に絞ってるので使いやすい。制作者のDiscordがあってそこで質問を投げられる。英語のみだが、かなりわかりやすい

私はこれ使ってます。

gitやPythonがどうのこうのは頑張ってください。

・導入の参考

economylife.net

1.2. モデルを作る

モデルを作ります。モデルとは入力に対してどういう変換をするかを決める仕組みです。

拓也さんのモデルであれば、私の声が拓也さんに変換される仕組み（のファイル）です。このモデルを作ることを指して「学習」とかいいがちです。

参考

www.nicovideo.jp

モデルを作るためには学習元のデータセット（コーパス）が必要です。

経験上、10～20分程度の音声があればいい精度のモデルが作成できます。

データセットの用意の仕方は各々ググってみてください。

グラブルなどのブラウザゲーであれば、OBSから録音するか、キャッシュビューワーを使ってコピーするなどでいいでしょう。

つくよみちゃんのように公式が配布しているものもあります。

tyc.rei-yumesaki.net

ここまで出来れば学習の設定をしてボタンを押せばモデルが作成できます。

2. ボイチェン元の音源を用意する

正直ここが一番難しいです。

なぜならRVCはボイスチェンジャーであって、抑揚やしゃべり方まで再現するものではないからです。（実際は多少再現されますが、されないと思う方が無難です）

適当な音源をそのまま変換しても満足のいくクォリティにはなかなかなりません。

参考

www.youtube.com

2.1. 自分の声を録る

ちょっとしんどいですが、一番確実です。私は全部これです。

東山源次を知ったフェディエルとりっちょ.rvc pic.twitter.com/njHKBQpEcP
— 墨汁 (@theisumania) 2023年7月29日

↓は↑の動画の変換前の音声です。つまり私の声です。投稿先はTRUTHですがアカウント無しで見れると思います。

truthsocial.com

私の生声なのでイロイロとキツいですが、キャラっぽいしゃべり方にすこ～～～～し寄せています。特徴とかイントネーションとか、いわゆる表現を。

この手法で行く場合は、抑揚や間の取り方しゃべりの癖に注意してください。音の高さはRVC変換時にある程度調整できるので適当でいいです。

2.2. 読み上げソフトを使う

ゆっくり、ボイロ、ボイボ、COEIROINK、ボイスピ、リードスピーカー、グーグル音声読み上げ。なんでもいいですがその手の読み上げソフトを使う方法です。

これらのソフトにはしゃべりの抑揚を調整する機能があるので、ある程度好きな表現にすることができます。

ボイロ実況などを作っていて、読み上げソフトの調整に明るい人にとっては一番いい方法かもしれません。しゃべりの癖を頑張って再現させましょう。

私はボイボでやろうとしましたが、うまく調整できませんでした。

歌の場合はボカロ、Cevio、synthⅤ、UTAUなどでこのセクションの内容を読み替えてください。

2.3. 元からある音声を使う

セリフであれば元の音源を、歌であれば対象の曲のボーカル抽出をつかいます。

圧倒的にお手軽ですが、クォリティの面ではあまりお勧めしません。

例えば、拓也さんのセリフを任意のキャラに言わせたい場合↓から音声を抽出することになります。

www.nicovideo.jp

聞けばわかりますが、音質：★★（ノイズと反響だらけでバランスがイマイチ。原作再現はかなり旺盛な方）です。

変換前の音声がガビってると変換後も当然ガビります。また拓也さんは喋り方が特徴的すぎるのでうまく変換できない可能性が高いです。

お歌の場合、歌い方のクセ（抑揚や表現）が残ったまま変換してしまうためキャラのイメージと合わない公算が極めてマッチョです。Adoのボーカル抽出してやる場合、キャラの歌唱力のイメージにそぐわない出力がされます。これはAdoが上手すぎるために生じるズレです。

素人歌唱の方が変換元に向いてると思います。

3. 変換したデータをつなぎ合わせて編集する

ここまでやれば素材は揃ったのでツギハギしていきましょう

変換したデータをDAWソフトで読み込み、編集していきます。

私はAudacityというフリーソフトを使っています。

Audacity ® | Free, open source, cross-platform audio software for multi-track recording and editing.

変換後の音声を聞き、雰囲気いい感じのものを切り取ってつなげてから、

正規化、イコライザー、コンプレッサー、リバーブ、速度調整でいい感じにします。

諸々の編集をしたAudacityのファイルを↓のリンクに入れているので、気になる人はDLしてください（DLできなければ言ってください）。

ブログ用ファイル置き場（Onedrive）

東山源次フェディりっちょのやつと拓也の射精フェディエルのが入っています。変換前の音声、変換後の音声、諸々編集した最終形などで構成さされています。

ここまでできれば音声については終わりです。

あとはそれっぽい画像を用意したり、動画にしたりして完了です。

私が最後の過程で使っているのは

Stable Diffusion Web UI
Medibang Paint
Powerpoint
OBS

です。AviutlとかDavinci Resolveとか使えればいいんですけどサボってます。

任意の場所にアップロードしてﾆﾁｬりましょう。

4. まとめ

存在しないセリフを言わせる方法をまとめたよ
RVCというものを使ってるよ
ツギハギしてるので結構力技だよ
あつまれグラブルインマー

かたった。

私

twitter.com

特に関係のないおすすめ

www.nicovideo.jp

墨汁の語るためのやつ

かたる

【紹介】存在しないセリフを言わせよう

0. はじめに

1 ボイチェン用のデータを作る

1.1. アプリケーションの用意

1.2. モデルを作る

2. ボイチェン元の音源を用意する

2.1. 自分の声を録る

2.2. 読み上げソフトを使う

2.3. 元からある音声を使う

3. 変換したデータをつなぎ合わせて編集する

4. まとめ