きり たん ai。 MuseScoreを使わずにCubaseで【AIきりたん】を歌わす方法

AI歌声合成ソフトNEUTRINOとは?話題のAIシンガーきりたん!使い方も解説!

きり たん ai

NEUTRINOで NSF法を使った音声合成ができるとのことで試してみます。 NSF法はニューラルソースフィルタモデルを使った手法で高速に高品質な音声を合成できる方法みたいです。 理屈はともかく早速試そう。 最終的な聞き比べは最後にあります。 オンライン版の使用について 現在は NSF法の部分を Windowsで動かせないとか何とかでオンライン版を使う必要があるようです。 を元に進めていきます。 まずはからオンライン版をダウンロード。 中身を解凍したらそのまま Google Driveにアップロード。 容量は 1GB、保存の容量はデフォルトで 15GBあるので大丈夫だとは思いますが、足りなければ追加購入したり別アカウント使ったり。 Colaboratoryのインストール Google Driveにアプリを追加します。 Colaboratoryというアプリを探してインストールします。 なんだかなぁ。 フォルダ内の NEUTRINO. ipynbを右クリックからアプリを実行。 ファイルを開くと説明とコードが書かれたページが開きます。 準備はここまで。 処理を行っていきます。 Colaboratoryの実行 コードを選択すると左に実行アイコンがつくので上から実行していきます。 最初は認証コードを求められるのでリンクから認証を済ませる。 順々に実行していきますが、ファイルパスやファイル名はちゃんと指定する。 例えば直下にフォルダを配置したなら以下の変更が必要。 必要なファイルについて オンラインは結構時間がかかるので NSF法以外を先に済ませることを考えます。 ローカルで NEUTRINOまで実行する場合には必要になるファイルに気を付ける必要があるのでファイル群の整理をしておきます。 READMEを見た感じ NEUTRINOのファイル群はこんな感じ。 NSFでは ModelDirと full、 timingの labを追加指定しているので多分こんな感じ。 実践と比較 つくったさくらさくらを使ってみます。 ちなみに musicxmlを日本語名にしていたらNSF合成だけエラーになりました。 分かってはいるけど日本語は問題起こしやすい。 WORLD NSF んん?ちょっと不自然な個所が減った? 声そのものが良くなっても音そのものに不自然さがあればダメなんだろうか。 ところでサンプルや今回ので NSFの wav容量が半分くらいになるのは偶然? 今回みたいにツールとかコードとかならいくらでも試すので、何とか音を直接いじらずにもっと良い歌にならないかな。

次の

【AIきりたん】初心者でもNEUTRINOでNSF法を試す

きり たん ai

公開準備の息抜きに作成したものです。 他のボーカルと聞き比べると違いがあって興味深いです。 合成器の学習には下記のJSUT-songコーパスの28曲(約25分)を用いています。 システムの入出力データ 入力データ MusicXMLファイル(楽曲データ、歌詞データ) 出力データ 音声データ(48kHzサンプリング) 機械学習における入出力データ 入力データ 音素(フルコンテキスト)・ピッチ情報 出力(推定)データ fo(基本周波数) mgc(メル一般化ケプストラム) bap(band aperiodicity) NEUTRINOはWORLDという音声分析変換合成システムを使用しています。 NEUTRINOの特性をふまえた調声方法に関する記事。 すごく詳しい。 個人的に驚いた調声法はWaveSurferを使用した調声方法。 機械学習の入出力データに関するところで書きましたが、NEUTRINOでは音素情報が入力として使われており、NEUTRINOフォルダ内のscoreのlabelに保存されています。 そのラベルをWaveSurferというフリーソフトを使用し変更することで、出力音声を変更しようという試みです。 labelフォルダ内にはfull(フルコンテキストラベル)、mono(モノフォンラベル)、timing(タイミング?)のラベルデータが入っていますが、コマンドプロンプト上での実行結果を見てみるとfullとtimingラベルを用いて推定しているようです。 詳しくは、後ほど開発者の方から解説記事が出るそうなので待つのもありです。 (実験するのもあり) ・WaveSurfer NEUTRINO使ってみた 個人的にもNEUTRINOを使ってみました。 読み込ませたデータはこんなかんじ。 ブレス位置はかなり適当です。 (To 有識者の方、ブレス記号の違いは認識されるんですか?) 1音に2文字を読ませたいような場合(e. 「ない」)、 そのままだとうまく合成できません。 生成音を聴いてみた感じだとノイズ感が若干気になりました。 iZotopeさんのRX7のde-noiseをかけると多少ましになります。 ピッチ編集に関してはあまり詳しくないので特に行わず。 最終的な歌声はこんなかんじになりました。

次の

【使い方あり】話題のAIシンガー「AIきりたん」を使ってみた!!

きり たん ai

公開準備の息抜きに作成したものです。 他のボーカルと聞き比べると違いがあって興味深いです。 合成器の学習には下記のJSUT-songコーパスの28曲(約25分)を用いています。 システムの入出力データ 入力データ MusicXMLファイル(楽曲データ、歌詞データ) 出力データ 音声データ(48kHzサンプリング) 機械学習における入出力データ 入力データ 音素(フルコンテキスト)・ピッチ情報 出力(推定)データ fo(基本周波数) mgc(メル一般化ケプストラム) bap(band aperiodicity) NEUTRINOはWORLDという音声分析変換合成システムを使用しています。 NEUTRINOの特性をふまえた調声方法に関する記事。 すごく詳しい。 個人的に驚いた調声法はWaveSurferを使用した調声方法。 機械学習の入出力データに関するところで書きましたが、NEUTRINOでは音素情報が入力として使われており、NEUTRINOフォルダ内のscoreのlabelに保存されています。 そのラベルをWaveSurferというフリーソフトを使用し変更することで、出力音声を変更しようという試みです。 labelフォルダ内にはfull(フルコンテキストラベル)、mono(モノフォンラベル)、timing(タイミング?)のラベルデータが入っていますが、コマンドプロンプト上での実行結果を見てみるとfullとtimingラベルを用いて推定しているようです。 詳しくは、後ほど開発者の方から解説記事が出るそうなので待つのもありです。 (実験するのもあり) ・WaveSurfer NEUTRINO使ってみた 個人的にもNEUTRINOを使ってみました。 読み込ませたデータはこんなかんじ。 ブレス位置はかなり適当です。 (To 有識者の方、ブレス記号の違いは認識されるんですか?) 1音に2文字を読ませたいような場合(e. 「ない」)、 そのままだとうまく合成できません。 生成音を聴いてみた感じだとノイズ感が若干気になりました。 iZotopeさんのRX7のde-noiseをかけると多少ましになります。 ピッチ編集に関してはあまり詳しくないので特に行わず。 最終的な歌声はこんなかんじになりました。

次の