AI Text to Speech

NOTE この機能には、VEGAS Pro 365、VEGAS Pro Edit、または VEGAS Pro Post 365 のサブスクリプションが必要です。この機能を使用するには、まず VEGAS Hub アカウントにログインする必要があります (詳細については、「VEGAS Hub」セクションを参照してください)。

Text to speech 機能を使用すると、ビデオ内のテキストを音声に変換し、オーディオファイルとして追加できます。これは、プロの声優を雇う必要がなく、大量のテキストを音声に変換する効率的な方法です。この機能を使用すると、AI テクノロジーを利用して、さまざまな言語や音声オプションでコンピューター生成の音声を生成できます。また、自然な響きのネイティブ音声を使用して、ナレーションをさまざまな言語に翻訳するという利便性も提供します。さらに、クラウドベースの機能により、新しいソフトウェアを構築することなく、新しい音声や機能にシームレスにアクセスできます。

テキストを音声に変換する

[ツール] | [Text to Speech] を選択します。
[Text to Speech] ダイアログボックスで、音声に変換するテキストをテキストフィールドに入力します。

スタイルを調整する

音声を変更	ドロップダウンリストの [音声] をクリックし、希望の音声を選択します。
速度を調整	フェーダーを使用して、音声の速度を調整します。
スピーチスタイルを変更	選択した音声に対してさまざまなスピーチスタイルを選択できます。
ピッチを調整	フェーダーを使用してピッチを調整します。

GENERATE SPEECH をクリックする。テキストが変換されて再生されます。

これで、生成された音声をオーディオファイルとして保存し、プロジェクトにインポートできるようになりました。

オーディオファイルをプロジェクトに保存する

Add to Project Media をクリックする。生成されたオーディオファイルは、プロジェクトに .wav ファイルとして保存されます。

このフォルダには、[プロジェクトメディア] ウィンドウからアクセスできます。

オーディオファイルをプロジェクトに挿入する

[タイムラインに挿入] をクリックします。オーディオファイルは、タイムラインの現在のカーソル位置にある [合成オーディオ] というラベルの付いた新しいオーディオトラックに新しいオーディオイベントとして挿入され、プロジェクトに自動的に保存されます。

テキストの翻訳

テキストフィールドにテキストを入力します。
(テキストを翻訳) ボタンをクリックします。
表示されるダイアログボックスで言語を選択します:
- テキスト言語: 入力されたテキストの言語
- 翻訳先: ターゲット言語
Translate ボタンをクリックします。テキストフィールドのテキストが、指定した言語の翻訳に置き換えられます。

[タイトルとテキスト] イベントから Text to Speech へのテキストの読み込み

タイムライン上の [タイトルとテキスト] イベントのテキストを Text To Speech ツールに読み込んで、そのテキストのオーディオファイルを生成できます。

[タイトルとテキスト] で生成されたメディアを保持するイベントをクリックして選択します。
[Text to Speech] ダイアログボックスで、[既存のイベントからテキストを読み込む] ボタンをクリックします。これにより、[タイトルとテキスト] イベントのテキストが Text to Speech テキスト入力フィールドに読み込まれます。
オーディオをプレビューし、必要な変更を加えます。

SSML 入力モードの使用

SSML (音声合成マークアップ言語) は、テキスト読み上げ (TTS) システムの出力をコントロールするために特別に設計されたマークアップ言語です。特定の単語を強調したり、ポーズの長さをコントロールしたり、話す速度を変更したりするなど、話し言葉のフォーマットやスタイルを詳細に指示できます。

SSML は、テキストがどのように発音され、どのように配信されるべきかを示すためにテキスト内に埋め込むことができる一連のタグを提供します。これらのタグは、韻律、発音、音量など、音声合成のさまざまな側面をコントロールします。

詳しくは、次を参照してくださいhttps://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-synthesis-markup

EXAMPLE

コピー

SSML の例

<speak version="1.0"  xml:lang="string">
  <voice name="en-US-ChristopherNeural" effect="eq_car" role="YoungAdultMale" >
     Welcome <break strength="medium" /> to text to speech.
  <p>
  <prosody rate="slow">This is a sentence that will be spoken slowly.</prosody>  <prosody rate="fast">This is a sentence that will be spoken quickly.</prosody>
  </p>
  <p>
  <break time="1s"/>A pause of 1 second is inserted here.<break time="1s"/>
  </p>
    </voice>
    <voice name="en-US-JennyMultilingualNeural" style="assistant">
        <lang xml:lang="en-US">
           Enjoy using the feature!
        </lang>
        <lang xml:lang="de-DE">
                    Viel Spaß beim Benutzen des Features!
        </lang>
    </voice>
</speak>