カリフォルニア大学のコンピューター科学者と電気エンジニアは、最小限のトレーニングでより表現力のある稼げる オンライン カジノに生成された声を生み出す方法を発見します。
研究者は、デジタルパーソナルアシスタントなど、より表現力豊かで、最小限のトレーニングを伴うオーガニックなど、稼げる オンライン カジノに生成された声を出す手段を発見しました。テキストをスピーチに変換するこの方法は、システムのトレーニングセットの一部ではない声にも適用できます。
コンピューター科学者と電気エンジニアのチームカリフォルニア大学サンディエゴ校ACML 2021会議で彼らの仕事を発表しました。
この新しいテクノロジーの可能なアプリケーション
パーソナルアシスタントに加えてスマートフォン、家庭や車では、この方法は、アニメーション映画の音声を改善し、複数の言語での音声の自動翻訳を改善するのにも役立ちます。この方法は、スティーブン・ホーキングがコミュニケーションに使用したコンピューター化された声と同様に、話す能力を失った個人を強化するパーソナライズされた音声インターフェイスを確立するのにも役立ちます。
「私たちはこの分野でかなり長い間働いています」とUC San Diego Jacobs School of Engineeringおよび論文の主任著者の1人。 「私たちは、スピーチを統合するだけでなく、そのスピーチに表現力のある意味を追加するという挑戦を見たかったのです。」
既存の稼げる オンライン カジノに生成された音声メソッドの欠点
既存の稼げる オンライン カジノに生成された音声メソッドは、2つの方法でこの作業に達していません。一部のシステムは、そのスピーカーに数時間のトレーニングデータを利用することにより、特定のスピーカーの表現型スピーチを統合できますが、他のシステムは、これまでに遭遇したことのないスピーカーからの数分間の音声データからのスピーチを統合できます。
対照的に、UCサンディエゴチームによって開発された方法は、トレーニングセットの一部ではない主題に対して最小限のトレーニング表現スピーチで生成できる唯一の方法です。
スピーチを統合するために表現力のある意味を追加する新しい方法
研究者は、感情の代理として、トレーニングサンプルのスピーチのピッチとリズムを特定しました。これにより、クローニングシステムは、これまでに遭遇したことのない声であっても、最小限のトレーニングで表現力豊かな音声を生成することができました。
「提案されたモデルが、特定の参照スピーチのスタイルを新しい音声エクスプレス、エモート、歌、またはコピーすることができることを実証します」と研究者は説明しました。
それらの方法は、テキストから直接スピーチを理解できます。ターゲットスピーカーから音声サンプルを再構築します。
この新しいテクノロジーの脅威の可能性
チームは、稼げる オンライン カジノに生成された音声作業を利用して、ディープフェイクビデオとオーディオクリップをさらに現実的で説得力のあるものにすることができることを認識しています。その結果、彼らは、彼らの方法によって作成された場合にクローン化されたスピーチを識別する透かしでコードをリリースする予定です。
「自然なイントネーションを作ることができれば、表現力のある音声クローニングが脅威になるだろう」と、紙のもう1つの主著者で博士号であるPaarth Neekharaは結論付けました。ジェイコブススクールのコンピューターサイエンスの学生。
メソッド自体を強化して開発する必要があります。それは英語の話者に偏っており、強いアクセントで声を特定するのに苦労しています。