HappyHorse 1.1 レビュー：モーション、オーディオ、一貫性を徹底検証

執筆：Jsam（シニアAIテクノロジーエキスパート）

この1年、私は数多くのAI動画生成ツールを試してきました。正直なところ、新しいモデルにわざわざ足を止めて実際に使ってみようと思わせるものは稀です。ほとんどのAI動画生成は今でもギャンブルに近いものがあります。詳細なプロンプトを書き、生成ボタンを押し、物理法則が崩壊しないことや、キャラクターが途中で別人に変形しないことを祈るしかない。そんな中、HappyHorse 1.1は、私が思わず立ち止まって注目した数少ない最近のアップデートの一つです。

HappyHorse 1.0をかなり使ってきた私は、その限界（特に動作のテンポが鈍い点や、肌のテクスチャを過度にシャープにしてプラスチックのような仕上がりにする傾向）をよく理解していました。Seedance 2.0のような業界リーダーが精密な物理マルチモーダル制御のゴールドスタンダードである一方、Alibabaによるこの1.1アップデートは、ナラティブの一貫性と音声・映像の同期という点で実用的かつ着実な前進を見せています。

Alibaba's HappyHorse 1.1 video model has been officially released

HappyHorse 1.1 が際立つ理由

実際のテストに基づいて言えば、HappyHorse 1.1は「何でもできる」エンジンを目指しているのではなく、特定のプロフェッショナル向けのボトルネックに特化しています。

ネイティブ音声・映像同時生成： これが本モデルの最大の差別化ポイントです。ライバル製品のように後から会話を合成する必要がなく、音声と表情が一回のパスでレンダリングされます。タイミングや感情のニュアンスは、バージョン1.0よりも大幅に向上しています。
ナラティブの連続性： 1つのプロンプトで最大8つの連続シーンを解析できるため、ストーリーボード制作者にとっては大きな時間短縮になります。カットごとに断片的なプロンプトを管理する必要がなくなります。
超リアルなクローズアップ： 「滑らかな肌」フィルター的なアプローチから脱却し、毛穴、微かなそばかす、自然な光の散乱をレンダリング。これにより、前世代よりもハイエンドなビューティーやライフスタイルマーケティングに適しています。
アイデンティティ追跡： 参照画像から動画を生成するモード（最大9枚対応）は、複数のショットにわたってキャラクターの服装や顔の特徴を維持するのに、おそらく最も信頼性の高い方法です。手動での大幅な編集に頼る必要がありません。

ベンチマークと実機テスト

一般的なテストケースではなく、私は5つの具体的かつ非常に困難なシナリオを用意し、動作モデリング、マルチイメージの一貫性、プロンプトの複雑さ、視覚的テクスチャ、そして音声統合の各能力を試しました。

1. 動的な表現力と動作モデリング

初期世代のAI動画モデルにありがちな問題は、動きが鈍いことや「滑る足の異常」（キャラクターが物理的な重力に従わずに平面上を滑るように見える）です。1.1アップデートでは、洗練された動作モデリングと時間的追跡の改善により、この問題に対処しています。

最初のテストでは、古代の歴史的設定での高速チェイスシーンをシミュレートしました。若い男性のAI生成ポートレートを参照画像として使い、複雑な15秒の追跡プロンプトをモデルに与えました。ローアングルの追跡ショットで、キャラクターが賑やかな市場を疾走し、街路の障害物を飛び越え、屋根から飛び降りるという内容です。

生成された出力では、自然な走行歩行が見られ、説得力のある物理的な勢いと重量感がありました。二次的な動き（風や慣性に応じた伝統的なローブや髪の毛のリアルなはためき）も説得力を持って処理されました。カメラの追跡も安定していましたが、急で鋭いターンでは、背景の建築物にわずかで一時的な歪みが生じることがありました。

プロンプト：

A 15-second continuous one-take, uncut with no transitions, features an ultra-low-angle, ground-hugging FPV dynamic tracking shot closely following a character running through a bustling, ancient-style market street crowded with people; a young man sprints to escape with rapid, powerful steps, his robes fluttering wildly as the camera rapidly tracks his back and side. He runs to the base of a high wall stacked with crates, clutter, and sacks, then steps on them to wall-run and leap onto the wall, captured from a low angle looking up as he becomes airborne with his robes flaring out in the air. After scaling the wall, he runs across the rooftops while the camera tracks him in a parallel shot over the roof tiles, his feet making a faint, crisp cracking sound. Reaching the edge of the roof, he leaps off, and the camera follows his descent until he lands steadily, quickly recovers, and continues sprinting forward, capturing the impact of his landing and the kicked-up dust from a low angle; the entire sequence is a single continuous shot with a tight, fast-paced rhythm. Audio: chasing footsteps, bustling street noise, cracking roof tiles, and whooshing wind.

2. マルチイメージ参照による被写体の一貫性

ショートフォームAI動画制作において、異なるカメラ設定でもキャラクターや製品のアイデンティティを維持することは究極の課題です。本モデルは、最大9枚の参照画像をReference-to-Video（R2V）ワークフローで同時に処理し、マルチ参照の視覚的アンカーを作成することでこれにアプローチしています。

この機能を評価するため、私は短編ドラマのシーンを構成しました。若い男性と若い女性が川岸を歩く、温かくノスタルジックな映画のような美しさを狙ったものです。3枚の参照画像をアップロードしました。各キャラクターの顔と服装、そして川岸の背景の画像です。プロンプトでは、15秒間に4つのショットからなるシーケンスを指定しました。

出力は非常に信頼性の高い連続性を維持していました。バーチャルカメラがミディアムトラッキングショットからクローズアップ、エクストリームクローズアップ、そして最終ワイドショットにカットされるにつれ、両キャラクターとも固有の特徴を保持していました。男性キャラクターのシャツの質感や女性キャラクターのドレスの柄などの服装のディテールもフレーム間で安定しており、単一画像生成パイプラインによく見られる視覚的なドリフトから大幅に改善されていました。

プロンプト：

Cinematic realistic quality, film grain texture, warm golden nostalgic color grading, 16:9 aspect ratio, 15 seconds, no dialogue, pure visual narrative. A summer evening, the golden sunset spills over the riverbank @Image3, as a boy @Image1 and a girl @Image2 walk side-by-side along the riverside path.

[0-5s] Medium side-angle tracking shot. The two walk side-by-side along the path. The sunset shines from behind and to the side, casting long shadows on the ground. The boy occasionally looks down to kick a small pebble, while the girl's hands hang naturally at her sides, keeping a subtle, hesitant distance between them. Ambient sound: flowing river water, distant cicadas, rustling willow leaves.

[5-9s] Close-up. The boy turns his head to look at the girl, his gentle and focused gaze lingering on her face, his lips curling up slightly in a soft smile without speaking. The sunset creates a warm golden rim light on his profile.

[9-12s] Cut to a close-up of the girl. Sensing his gaze, she is momentarily startled, then a subtle smile naturally plays on her lips; her eyelashes flutter slightly as she shyly lowers her head, loose strands of hair falling to cover half of her face.

[12-15s] Wide shot slowly pulling back. The two figures grow smaller and smaller under the sunset, the river surface sparkles with light, and the screen is gradually enveloped by the warm golden glow.

[Audio] No dialogue throughout. Ambient sound: flowing water as a base, cicadas, and the subtle rustling of a breeze through willow leaves. A very faint, warm, and restrained piano melody plays in the background, resembling the tone of a distant memory.

3. 複雑なプロンプトへの追従とワールド物理

画像ガイドなしで、モデルが複雑なナラティブ指示をどの程度処理できるかを評価することは重要です。私はテキストから動画（Text to Video）のテストとして、15秒・5シーンの脚本を記述しました。嵐の中の灯台、金属のドアが開く、老看守が無線機を操作する、信号の静止クローズアップ、最後に光のビームが一掃するという内容です。

モデルは5つのシナリオをすべて正しい順序で連続的に生成し、荒れた雨の屋外から薄暗い室内への素早い変化もうまく処理しました。ただし、細かい手の動き（看守がラジオのつまみをひねるなど）はややぼやけて見え、細かい運動物理は依然として課題であることを示していました。

4. 視覚的テクスチャと肌のリアリズム

初期のAI動画エンジンへのよくある批判は、「テカテカした肌」や「プラスチックのような質感」で、人間の被写体が過度にスムーズで人工的にシャープに見えることです。HappyHorse 1.1では、毛穴、細かいしわ、自然な傷など、微妙な肌の不完全さを保持することでこれを修正しようとしています。

満員のスタジアムで祝うサッカー選手のクローズアップショットを生成したところ、リアルな肌の質感が現れ、被写体の顔にはデジタルな光沢ではなく自然なマットな光の拡散が見られました。しかし、背景の群衆キャラクターは典型的な生成アーティファクトに悩まされ、カメラから遠くに配置されるとぼやけて自然な動きを失っていました。

5. ネイティブ音声合成とリップシンク

統合された音声合成は、依然として本モデルの最も注目すべき設計上の選択の一つです。生成後の吹き替えツールを使用する代わりに、クリエイターはテキストプロンプトに環境音の説明、セリフ、感情的なトーンを直接含めることができます。

会議室での2人の企業マネージャーによる激しい4行の言い争いをテストしたところ、クリーンな結果が得られました。リップシンクは正確で、ボーカルトラックはボディランゲージ（手がテーブルを叩く明確な拍手音を含む）に合わせて自然にピッチと音量が変化しました。唯一の問題は、4回の素早い会話のターンを15秒の枠に収めることで、やや詰め込まれた印象になったことです。ただし、音楽に特化したシナリオでは、システムはバージョン1.0と同様に動作し、生成された楽器の音がときどき楽器上の手の物理的な動きと同期しなくなることがありました。

制作ワークフローと戦略的適合性

制作パイプラインを設計する際、クリエイターはモデルの強みがどこに最も合うかを評価する必要があります。

HappyHorse 1.1を選ぶべき時： プロジェクトが対話中心であり、多言語リップシンクが必要な場合、マルチキャラクターの短編ナラティブを使用する場合、またはECサイト向けに布地や製品のテクスチャを明確に表示する必要がある場合。9枚の参照画像入力は、連続的なストーリーテリングのために非常に安定したキャラクター制御を提供します。
他の選択肢を検討すべき時： プロジェクトに複雑なバーチャルカメラワーク（クレーンダウンや長尺トラッキングショットなど）、複雑な流体の物理シミュレーション、または高精細なネイティブ2K/4K出力が必要な場合。そのようなケースでは、Kling 3.0や特殊な空間制御プラットフォームの方が依然として効果的です。さらに、15秒の出力制限があるため、長尺動画には外部編集が依然として必要です。

最終所感

AlibabaのHappyHorse 1.1は、実用的で制作に重点を置いたアップグレードです。実験的な機能を追求するのではなく、HappyHorse 1.0の核心的なボトルネックに対処し、改善されたモーショントラッキング、信頼性の高いキャラクターの連続性、そしてリアルな視覚的テクスチャを提供します。

複雑な物理シミュレーションや細かい手と物体のインタラクションといったエッジケースでは、現在の動画モデルに共通する限界が見られるものの、連続的な動画制作において効率的でコストパフォーマンスの高いソリューションを提供します。視覚的な一貫性と低い生成コストのバランスを求めるクリエイターにとって、非常に競争力のある選択肢となっています。