Meta は、テキストプロンプトに基づいてビデオを生成する AI を発表します

効果はかなり大雑把ですが、このシステムは、生成型人工知能の次に来るものをいち早く垣間見せてくれます。これは、今年大きな興奮を引き起こしたテキストから画像への AI システムの次の明らかなステップです。

Meta による Make-A-Video の発表はまだ公開されていないため、他の AI ラボが独自のバージョンをリリースする可能性があります。それはまた、いくつかの大きな倫理的問題を提起します。

先月だけでも、AI ラボ OpenAI は最新のテキストから画像への AI システム DALL-E を誰でも利用できるようにし、AI スタートアップ Stability.AI はオープンソースのテキストから画像へのシステムである Stable Diffusion を立ち上げました。

しかし、テキストからビデオへの AI には、さらに大きな課題がいくつかあります。 1 つには、これらのモデルには膨大な計算能力が必要です。テキストから画像への大規模な AI モデルよりも、数百万の画像をトレーニングに使用するよりもさらに大きな計算リフトです。つまり、予見可能な将来のためにこれらのシステムを構築する余裕があるのは、実際には大規模なテクノロジー企業だけです。また、高品質のビデオとテキストを組み合わせた大規模なデータセットがないため、トレーニングも難しくなります。

これを回避するために、Meta は 3 つのオープンソースの画像およびビデオデータセットのデータを組み合わせてモデルをトレーニングしました。ラベル付けされた静止画像の標準的なテキスト画像データセットは、AI がオブジェクトの名前と外観を学習するのに役立ちました。ビデオのデータベースは、それらのオブジェクトが世界でどのように動くべきかを学習するのに役立ちました。 2 つのアプローチの組み合わせは、査読なしの論文で説明されている Make-A-Video に役立ちました。今日発表された論文、テキストからビデオを大規模に生成します。

アレン人工知能研究所のコンピュータービジョン研究科学者であるタンメイグプタは、メタの結果は有望であると述べています。共有されているビデオは、カメラが回転するにつれてモデルが 3D 形状をキャプチャできることを示しています。このモデルには、奥行きの概念と照明の理解も含まれています。 Gupta 氏は、いくつかの詳細と動きは適切に行われており、説得力があると述べています。

しかし、「特にこれらのシステムをビデオ編集やプロフェッショナルなコンテンツ作成に使用する場合は、研究コミュニティが改善する余地がたくさんあります」と彼は付け加えます。特に、オブジェクト間の複雑な相互作用をモデル化することは依然として困難です。

「アーティストがキャンバスにブラシでペイントする」というプロンプトによって生成されたビデオでは、ブラシがキャンバス上を移動しますが、キャンバス上のストロークは現実的ではありません。「これらのモデルが一連のインタラクションを生成することに成功するのを見てみたいと思います。たとえば、『男性が本棚から本を手に取り、眼鏡をかけ、座ってコーヒーを飲みながら本を読む』」と Gupta 氏は述べています。と言う。