HappyHorse 1.1 리뷰: 모션, 오디오 및 일관성 테스트

Jsam, 선임 AI 기술 전문가

지난 1년 동안 수십 개의 AI 비디오 도구를 사용해 봤습니다. 솔직히 말하면, 새로운 모델이 나를 멈추게 하고 실제로 사용하게 만드는 경우는 드뭅니다. 대부분의 AI 비디오 생성은 여전히 도박처럼 느껴집니다. 상세한 프롬프트를 작성하고, 생성 버튼을 누르고, 물리 법칙이 무너지지 않거나 캐릭터가 중간에 다른 사람으로 변하지 않기를 바라는 식이죠. HappyHorse 1.1은 최근 몇 안 되는 업데이트 중 하나로, 제가 잠시 멈추고 주목하게 만들었습니다.

HappyHorse 1.0을 상당히 오래 사용해 본 입장에서, 저는 그 한계점(특히 느린 모션 템포와 피부 질감을 과도하게 선명하게 처리해 플라스틱 마감처럼 만드는 경향)을 잘 알고 있었습니다. Seedance 2.0과 같은 업계 선두주자가 정밀한 물리 및 멀티모달 제어의 황금 기준으로 남아 있지만, 알리바바의 이 1.1 업데이트는 내러티브 일관성과 시청각 동기화를 처리하는 데 있어 실용적이고 신중한 발전을 보여줍니다.

Alibaba's HappyHorse 1.1 video model has been officially released

HappyHorse 1.1이 주목받는 이유

직접 테스트한 결과에 따르면, HappyHorse 1.1은 "만능" 엔진이 되려는 것이 아니라 특정 전문 분야의 병목 현상에 집중하고 있습니다.

  • 네이티브 시청각 공동 생성: 이는 이 모델의 가장 강력한 차별화 요소입니다. 나중에 대사를 따로 붙여야 하는 경쟁사와 달리, 오디오와 표정이 한 번의 패스로 렌더링됩니다. 타이밍과 감정적 뉘앙스가 버전 1.0보다 훨씬 뛰어납니다.
  • 내러티브 연속성: 하나의 프롬프트에서 최대 8개의 연속 장면을 파싱할 수 있는 기능은 스토리보드 작업자에게 큰 시간 절약이 됩니다. 각 카메라 컷마다 분산된 프롬프트를 관리할 필요가 없습니다.
  • 초현실적인 클로즈업: "부드러운 피부" 필터 접근 방식에서 벗어나, 이제 모공, 미세한 주근깨, 자연스러운 산란광을 렌더링하여 이전 모델보다 고급 뷰티 및 라이프스타일 마케팅에 훨씬 적합합니다.
  • 아이덴티티 추적: 참조-비디오 모드(9개 이미지 지원)는 여러 샷에 걸쳐 캐릭터의 의상과 얼굴 특징을 수동 편집 없이 유지하는 가장 신뢰할 수 있는 방법입니다.

벤치마크 및 직접 테스트

일반적인 테스트 케이스에 의존하지 않고, 모션 모델링, 다중 이미지 일관성, 프롬프트 복잡성, 시각적 텍스처, 오디오 통합을 시험하기 위해 특별히 까다로운 5가지 시나리오를 선정했습니다.

1. 역동적인 표현력과 모션 모델링

초기 세대 AI 비디오 모델의 반복적인 병목 현상은 느린 움직임이나 "미끄러지는 발 이상 현상"(캐릭터가 물리적 중력을 받으며 달리기보다는 평면 위를 미끄러지듯 움직이는 현상)입니다. 1.1 업데이트는 이 문제를 해결하기 위해 정제된 모션 모델링과 개선된 시간 추적을 구현했습니다.

첫 번째 테스트는 고대 역사적 배경에서의 고속 추격 장면을 시뮬레이션했습니다. 한 젊은 남성의 AI 생성 초상화 하나를 참조로 사용하여, 복잡한 15초 추적 프롬프트를 모델에 입력했습니다. 캐릭터가 번화한 시장을 질주하고, 거리 장애물을 뛰어넘고, 지붕에서 도약하는 로우 앵글 추적 샷이었습니다.

결과물은 믿을 만한 물리적 모멘텀과 무게감을 지닌 자연스러운 달리기 보폭을 보여주었습니다. 2차 모션(바람과 관성에 반응하는 전통 의복과 머리카락의 사실적인 움직임)도 설득력 있게 처리되었습니다. 카메라 추적은 안정적이었지만, 빠르고 날카로운 회전에서는 배경 건축물에 약간의 왜곡이 나타났습니다.

프롬프트:

A 15-second continuous one-take, uncut with no transitions, features an ultra-low-angle, ground-hugging FPV dynamic tracking shot closely following a character running through a bustling, ancient-style market street crowded with people; a young man sprints to escape with rapid, powerful steps, his robes fluttering wildly as the camera rapidly tracks his back and side. He runs to the base of a high wall stacked with crates, clutter, and sacks, then steps on them to wall-run and leap onto the wall, captured from a low angle looking up as he becomes airborne with his robes flaring out in the air. After scaling the wall, he runs across the rooftops while the camera tracks him in a parallel shot over the roof tiles, his feet making a faint, crisp cracking sound. Reaching the edge of the roof, he leaps off, and the camera follows his descent until he lands steadily, quickly recovers, and continues sprinting forward, capturing the impact of his landing and the kicked-up dust from a low angle; the entire sequence is a single continuous shot with a tight, fast-paced rhythm. Audio: chasing footsteps, bustling street noise, cracking roof tiles, and whooshing wind.

2. 다중 이미지 참조를 통한 피사체 일관성

다양한 카메라 설정에서 캐릭터와 제품의 정체성을 유지하는 것은 단편 AI 비디오 제작의 궁극적인 시험입니다. 이 모델은 R2V(Reference-to-Video) 워크플로에서 최대 9개의 참조 이미지를 동시에 처리하여 다중 참조 시각적 앵커를 생성하는 방식으로 접근합니다.

이 기능을 평가하기 위해, 젊은 남성과 젊은 여성이 강둑을 따라 걷는 단편 드라마 장면을 구성했으며, 따뜻하고 향수 어린 영화적 미학을 목표로 했습니다. 각 캐릭터의 얼굴/의상에 대한 이미지 2장과 강둑 배경 이미지 1장 등 총 3장의 참조 이미지를 업로드했습니다. 프롬프트는 15초에 걸쳐 4개의 샷 시퀀스를 구성했습니다.

결과물은 매우 신뢰할 수 있는 연속성을 유지했습니다. 가상 카메라가 미디엄 추적 샷에서 클로즈업, 익스트림 클로즈업, 그리고 최종 와이드 샷으로 전환될 때, 두 캐릭터 모두 고유한 특징을 유지했습니다. 남성 캐릭터 셔츠의 질감과 여성 캐릭터 드레스의 패턴과 같은 의상 디테일이 프레임 전반에 걸쳐 안정적으로 유지되어, 단일 이미지 생성 파이프라인에서 흔한 시각적 드리프트에 비해 크게 개선되었습니다.

프롬프트:

Cinematic realistic quality, film grain texture, warm golden nostalgic color grading, 16:9 aspect ratio, 15 seconds, no dialogue, pure visual narrative. A summer evening, the golden sunset spills over the riverbank @Image3, as a boy @Image1 and a girl @Image2 walk side-by-side along the riverside path.

[0-5s] Medium side-angle tracking shot. The two walk side-by-side along the path. The sunset shines from behind and to the side, casting long shadows on the ground. The boy occasionally looks down to kick a small pebble, while the girl's hands hang naturally at her sides, keeping a subtle, hesitant distance between them. Ambient sound: flowing river water, distant cicadas, rustling willow leaves.

[5-9s] Close-up. The boy turns his head to look at the girl, his gentle and focused gaze lingering on her face, his lips curling up slightly in a soft smile without speaking. The sunset creates a warm golden rim light on his profile.

[9-12s] Cut to a close-up of the girl. Sensing his gaze, she is momentarily startled, then a subtle smile naturally plays on her lips; her eyelashes flutter slightly as she shyly lowers her head, loose strands of hair falling to cover half of her face.

[12-15s] Wide shot slowly pulling back. The two figures grow smaller and smaller under the sunset, the river surface sparkles with light, and the screen is gradually enveloped by the warm golden glow.

[Audio] No dialogue throughout. Ambient sound: flowing water as a base, cicadas, and the subtle rustling of a breeze through willow leaves. A very faint, warm, and restrained piano melody plays in the background, resembling the tone of a distant memory.

3. 복잡한 프롬프트 준수 및 세계 물리

이미지 가이드 없이 모델이 복잡한 내러티브 명령을 얼마나 잘 처리하는지 평가하는 것은 중요합니다. 저는 폭풍 속 등대, 금속 문이 열리는 장면, 노인 관리자가 라디오 콘솔을 조작하는 장면, 정적 신호의 클로즈업, 그리고 마지막으로 빛이 휩쓸고 지나가는 장면 등 5개 장면으로 구성된 15초 텍스트-비디오(T2V) 테스트를 실행했습니다.

모델은 5가지 시나리오를 모두 올바른 순서로 성공적으로 시퀀싱했으며, 거칠고 비 오는 외부에서 어두운 실내로의 빠른 전환도 잘 처리했습니다. 그러나 관리자의 손가락이 라디오 노브를 돌리는 것과 같은 고디테일 수동 상호작용은 다소 흐릿하게 나타나, 정밀한 운동 물리학이 여전히 과제임을 보여주었습니다.

4. 시각적 텍스처와 피부 리얼리즘

구세대 AI 비디오 엔진에 대한 빈번한 비판은 "기름진 피부" 또는 "플라스틱" 질감으로, 인간 피사체가 지나치게 부드럽고 인위적으로 선명하게 보이는 현상입니다. HappyHorse 1.1은 모공, 잔주름, 자연스러운 잡티 등 미묘한 피부 결점을 보존함으로써 이를 교정하고자 합니다.

축구 선수가 가득 찬 경기장에서 골을 자축하는 장면의 클로즈업 샷은 사실적인 피부 질감을 보여주었으며, 피사체의 얼굴에는 디지털 광택 대신 자연스러운 무광 확산광이 적용되었습니다. 하지만 배경 관중 캐릭터들은 전형적인 생성 아티팩트를 보여주었으며, 카메라에서 멀리 떨어진 위치에서는 흐릿해지고 자연스러운 움직임을 잃었습니다.

5. 네이티브 오디오 합성 및 립싱크

통합 오디오 합성은 이 모델의 가장 주목할 만한 설계 선택 중 하나입니다. 생성 후 더빙 도구를 사용하는 대신, 크리에이터는 환경 소리 설명, 대사, 감정 톤을 텍스트 프롬프트에 직접 포함시킬 수 있습니다.

회의실에서 두 기업 관리자 간의 강렬한 4줄 논쟁을 테스트한 결과 깔끔한 결과가 나왔습니다. 립싱크는 정확했고, 음성 트랙은 바디랭귀지(특히 손이 테이블을 치는 뚜렷한 소리 포함)에 맞춰 자연스럽게 음높이와 볼륨이 변화했습니다. 유일한 문제는 15초 창에 4턴의 빠른 대화를 맞추는 것이었는데, 약간 압축된 느낌이 들었습니다. 그러나 음악 중심의 특수 시나리오에서는 시스템이 버전 1.0과 유사하게 작동했으며, 생성된 악기 소리가 때때로 악기 위의 물리적 손 움직임과 동기화되지 않는 경우가 있었습니다.

제작 워크플로 및 전략적 적합성

프로덕션 파이프라인을 설계할 때, 크리에이터는 모델의 강점이 가장 잘 들어맞는 부분을 평가해야 합니다.

  • HappyHorse 1.1을 선택해야 할 때: 프로젝트가 대화 중심이고, 다국어 립싱크가 필요하며, 다중 캐릭터 단편 내러티브를 사용하거나, 전자상거래를 위해 명확한 직물 및 제품 텍스처를 보여주는 데 의존하는 경우입니다. 9개 이미지 참조 입력은 연속적인 스토리텔링을 위한 매우 안정적인 캐릭터 제어를 제공합니다.
  • 다른 곳을 봐야 할 때: 프로젝트에 복잡한 가상 카메라 움직임(예: 크레인 드롭 또는 긴 트래킹 샷), 복잡한 유체의 물리적 시뮬레이션, 또는 고해상도 네이티브 2K/4K 출력이 필요한 경우입니다. 이러한 경우 Kling 3.0 또는 특수 공간 제어 플랫폼과 같은 엔진이 여전히 더 효과적입니다. 또한 15초 출력 제한으로 인해 장편 비디오는 여전히 외부 편집이 필요합니다.

최종 생각

알리바바의 HappyHorse 1.1은 실용적이고 프로덕션 중심의 업그레이드입니다. 실험적인 기능을 쫓기보다는 HappyHorse 1.0의 핵심 병목 현상을 해결하여 개선된 모션 추적, 신뢰할 수 있는 캐릭터 연속성, 사실적인 시각적 텍스처를 제공합니다.

복잡한 물리 시뮬레이션과 미세한 손과 물체 간 상호작용의 극단적인 경우에는 여전히 현재 비디오 모델의 일반적인 한계가 나타나지만, 이 모델은 연속적인 비디오 제작을 위한 효율적이고 비용 효율적인 솔루션을 제공합니다. 시각적 일관성과 낮은 생성 비용 사이의 균형을 추구하는 크리에이터에게 HappyHorse 1.1은 매우 경쟁력 있는 옵션입니다.