


Seedance 2.0 — полное руководство по промптингу
У Seedance 2.0 есть собственный язык. Модель буквально реагирует на определённые ключевые слова для камеры, освещения, движения и ограничений, а обычные текстовые описания на естественном языке по большей части пролетают мимо. Вы можете написать прекрасно сформулированный промпт, получить результат и не понять, почему он выглядит как стоковое видео. Причина почти всегда одна: модель не распознала ваши намерения, потому что вы описали их не на том языке.
Этот текст — полный справочник по языку, который Seedance понимает. Все ключевые слова камеры, все модификаторы освещения, все ограничения, которые подтвердили свою эффективность, и пятислойная структура промпта, позволяющая собрать из этих элементов работающее целое.
Материал собран из сотен генераций, официальной документации Volcengine, туториалов Higgsfield и Yaroflasher, а также из приёмов, проверенных сообществом на практике.
С чем вы работаете
Seedance 2.0 — не конвертер текста в видео. Это мультимодальная съёмочная площадка, которая принимает одновременно четыре типа входных данных:
- Изображения — до 9 штук: листы персонажей, мудборды, фотографии продуктов, раскадровки.
- Видеоклипы — до 3 штук: референсы движения камеры, хореографии, ритма.
- Аудиодорожки — до 3 штук: озвучка, музыка, звуковые эффекты.
- Текстовый промпт.
Итого 12 референсных файлов плюс текст. Модель обрабатывает всё это за один проход и выдаёт от 4 до 15 секунд видео в разрешении до 1080p с двухканальным стереозвуком. Видео и аудио генерируются одновременно, а не склеиваются после — поэтому синхронизация губ работает сразу, без дополнительных шагов. Модель поддерживает синхронизацию речи на английском, мандаринском, японском, корейском, испанском, французском, немецком, португальском и китайских диалектах.
Для сравнения: Sora 2, Kling 3.0 и Veo 3.1 принимают текст и изображения. Seedance принимает все четыре модальности сразу. На платформе Higgsfield при этом можно параллельно запускать Kling, Veo, Sora и более 30 других моделей, сравнивая один и тот же промпт на разных движках в одном месте.
Если вы вводите в Seedance только текст, вы задействуете малую часть его возможностей. Референсные изображения и видео радикально меняют результат, и дальше в тексте мы разберём, как именно их использовать.
Пятислойная структура промпта
Официальная документация Volcengine описывает формулу из шести элементов. Тестирование сообществом показало, что пять слоёв стабильно дают лучший результат, чем более длинные и рыхлые конструкции:
Субъект → Действие → Камера → Стиль → Ограничения
Порядок имеет значение. Субъект на первом месте привязывает модель к центру тяжести — она сразу понимает, на чём сфокусироваться. Действие на втором задаёт то, что должно двигаться, даже если всё остальное сместится. Камера на третьем фиксирует кадрирование до того, как модель начнёт пересматривать ракурс каждые несколько секунд. Стиль ближе к концу добавляет визуальный характер, не перехватывая контроль над движением. Ограничения в самом конце закрывают пробелы, которые оставили первые четыре слоя.
Разберём каждый слой.
Слой 1: Субъект
Конкретика в описании субъекта определяет, будет ли результат выглядеть осмысленно или обобщённо. Сравните три уровня детализации:
- Размыто: «женщина».
- Точнее: «молодая женщина с каштановыми волосами».
- Конкретно: «женщина лет двадцати восьми, тёмные тугие кудри до ушей, маленькая серебряная серьга-кольцо в левом ухе, облегающая чёрная водолазка, нейтральное выражение лица».
Каждая деталь, которую вы указали, — это деталь, которую модели не придётся додумывать за вас. Длина волос, текстура одежды, поза, аксессуары — всё, что вы оставили неуказанным, модель заполнит средним значением из обучающих данных, а среднее всегда безликое.
Один субъект на генерацию — самый надёжный путь. Два персонажа работают, если развести их в пространстве и обозначить тегами @Character_A и @Character_B. Три и больше — результат становится непредсказуемым.
Слой 2: Действие
Здесь описывается то, что происходит в кадре. Настоящее время, одно основное движение на кадр. На этом слое разваливается большинство промптов, потому что люди описывают состояния вместо движений.
- Состояние: «она выглядит счастливой и наслаждается закатом».
- Движение: «она медленно поворачивается к камере, ветер приподнимает подол юбки, глаза чуть прищуриваются от света».
Первый вариант даёт модели статичную картинку, которую нужно как-то оживить. Второй даёт последовательность, которую можно выполнить. Результат отличается заметно.
Правило, которому стоит следовать всегда: разделяйте движение субъекта и движение камеры. «Камера вращается вокруг танцующего человека» — одна инструкция, из которой модель не может разобрать, кто вращается. «Танцовщица медленно кружится, камера зафиксирована» — две раздельные директивы, и результат сразу становится чище.
Слой 3: Камера
Seedance воспринимает указания камеры как полноценный управляющий сигнал. Одно основное движение камеры на генерацию. Описывайте ритм словами — «медленно», «плавно», «мягко» — а не техническими параметрами. Официальное руководство не рекомендует указывать значения диафрагмы, ISO или миллиметры объектива: модель лучше реагирует на описательный язык.
Если нужно составное движение, выстраивайте его последовательно: «начало: медленный dolly-in, затем: мягкий pan right в последние 2 секунды». Это даёт модели две временные фазы вместо двух конкурирующих инструкций в одном предложении.
Отдельное предупреждение о скорости. Слово «fast» без уточнения — самое проблемное ключевое слово в Seedance. Быстрая камера плюс быстрый субъект плюс насыщенная сцена почти гарантируют дрожание и артефакты. Если нужна скорость, делайте быстрым только один элемент, удерживая остальные в покое.
Примечание. Ключевые слова в справочниках ниже приведены на английском, потому что именно в таком виде их нужно вписывать в промпт Seedance. Русские пояснения помогут понять, что каждое слово делает.
Справочник: ключевые слова камеры
Статичные кадры
- fixed / locked-off — нулевое движение камеры.
- static wide — широкий неподвижный установочный кадр.
- locked tripod, zero camera shake — устранение фонового дрожания.
Движения
- push-in / dolly in — камера приближается к субъекту. Напряжение, акцент, эмоциональные крупные планы.
- pull-out / dolly out — камера отъезжает. Раскрытие окружения, контекст сцены.
- pan left / right — горизонтальное вращение камеры на месте. Сканирование пространства, сопровождение действия.
- tracking shot / follow — камера движется рядом с субъектом. Экшн-сцены, преследование.
- orbit / arc / 360 orbit — камера облетает субъект. Демонстрация продуктов, портреты, героические моменты.
- aerial / drone shot — вид с высоты. Ландшафты, установочные кадры.
- handheld — естественная тряска. Документальный стиль, ощущение пользовательского контента.
- crane up / down — вертикальный подъём или спуск. Драматичные высотные раскрытия.
- gimbal — плавное стабилизированное движение. Полированный кинематографичный характер, отличается от handheld отсутствием тряски.
- steadicam walk — плавное движение вперёд вслед за персонажем через пространство.
- whip pan — быстрый горизонтальный мах камеры. Срочность, переход между сценами.
- dolly zoom — эффект из «Головокружения» Хичкока: субъект остаётся того же размера, а фон деформируется.
- rack focus — перевод фокуса между передним и задним планом, перенаправляет внимание зрителя.
Модификаторы скорости
- imperceptible / barely — предельно медленное, почти незаметное движение.
- slow / gentle / gradual — безопасная стартовая точка, рекомендуется по умолчанию.
- smooth / controlled — естественный ритм.
- dynamic / swift — высокий импакт. Использовать с осторожностью.
Слой 4: Стиль
Освещение, цветокоррекция, киноотсылки, атмосфера. Из всех элементов промпта описание освещения оказывает наибольшее влияние на качество результата — это не наше наблюдение, а прямое утверждение из официального руководства Volcengine. Влияние освещения больше, чем у стилевых прилагательных, модификаторов качества или запросов разрешения. Если вы добавляете к слабому промпту только один элемент, пусть это будет описание света.
Несколько слов о киноотсылках. Они работают как стилевые якоря — задают модели визуальную систему координат. Но есть важный нюанс: слово «cinematic» само по себе не является якорем. Официальное руководство прямо называет его слишком размытым. Модель не знает, что вы имеете в виду под «кинематографично», и подставляет что-то среднее. А вот «cinematic film tone, 35mm, warm golden lighting» — это три пересекающихся ограничения, которые дают модели конкретные ориентиры.
Ещё одна тонкость, которую легко пропустить. Слова, описывающие мерцающий свет — «glow», «glimmer», «glints» — провоцируют покадровое мерцание яркости, когда блики непредсказуемо прыгают от кадра к кадру. Если вам нужен мягкий свет без этой нестабильности, используйте вместо них «steady intensity» или «diffuse».
Примечание. Как и в справочнике камеры, ключевые слова освещения и стиля приведены на английском — именно так их нужно вписывать в промпт.
Справочник: освещение
- golden hour — единственное словосочетание, дающее максимальный прирост качества при минимуме слов. Если не знаете, с чего начать, начните с него.
- rim light / dramatic rim light against dark background — контровой свет, отделяющий силуэт от фона по контуру. Выраженный кинематографичный характер.
- soft key from 45 degrees — мягкий рисующий свет под углом 45 градусов. Хорошо работает для говорящей головы.
- overcast daylight / even overcast — рассеянный свет пасмурного дня. Устраняет мерцание в ярких сценах.
- backlit silhouette at sunset — контровой свет на закате, субъект превращается в силуэт. Драматичное настроение.
- motivated lighting from practical source — свет от видимого источника в кадре (лампа, окно, экран телефона). Создаёт ощущение реальности.
- volumetric fog — объёмный туман, добавляет атмосферную глубину. Хорошо сочетается с контровым светом.
- chiaroscuro — высококонтрастное освещение с глубокими тенями в стиле «Крёстного отца».
Справочник: цветокоррекция
- teal and orange — классическая голливудская цветовая схема.
- bleach bypass — обесцвеченный, грубый, высококонтрастный. Ощущение необработанной плёнки.
- warm tone / amber-tinted — тёплые тона, ностальгический характер.
- crushed blacks — глубокая потеря деталей в тенях. Кинематографичная плотность изображения.
- pastel — мягкие пастельные тона. Аниме-эстетика, модная съёмка.
Справочник: киноотсылки как стилевые якоря
- cinematic film tone, 35mm — самый надёжный универсальный якорь. Работает почти в любом контексте.
- 16mm film, handheld camera — сырая инди-эстетика, ощущение документальности.
- anamorphic lens flare — широкоэкранное кино с характерными горизонтальными бликами.
- National Geographic quality — стиль природного документального фильма.
- documentary-style handheld framing — наблюдательный реализм, камера как свидетель.
Слой 5: Ограничения
Последний слой, и при этом тот, который отделяет видео с узнаваемым AI-характером от видео, где этот характер не считывается. Ограничения не добавляют в кадр ничего нового — они не дают модели добавить то, что вам не нужно.
Модель надёжнее обрабатывает позитивные формулировки ограничений, чем негативные. «Avoid jitter» и «maintain face consistency» работают лучше, чем список того, чего вы не хотите видеть. Держите это в виду при составлении промпта.
Справочник: обязательные ограничения для промптов с персонажем
- avoid jitter — предотвращает дрожание экрана.
- avoid bent limbs — предотвращает искажение рук и ног. Рекомендуется в каждом промпте с персонажем без исключений.
- avoid identity drift — предотвращает изменение черт персонажа между кадрами.
- avoid temporal flicker — предотвращает покадровые колебания яркости.
- no distortion, no stretching — поддерживает геометрическую стабильность.
- maintain face consistency — сохраняет идентичность лица между склейками.
Суффикс качества — строка, которую сообщество рекомендует добавлять к каждой генерации:
sharp clarity, natural colors, stable picture, no blur, no ghosting, no flickering
Справочник: слова, которые ухудшают результат
Эти ключевые слова выглядят так, будто должны помогать, но на практике работают против вас.
- «fast» без уточнения — модель ускоряет все элементы одновременно. Укажите, какой именно элемент быстрый, и удерживайте остальные в покое.
- «cinematic» без сопровождения — не даёт модели конкретных ориентиров. Всегда добавляйте текстуру, свет или киноотсылку.
- «epic» — не имеет визуального значения для модели генерации видео. Она не знает, как это отрендерить.
- «amazing» / «beautiful» / «stunning» — описывают чувство зрителя, а не то, что должна показать камера. Модели приходится угадывать, какой визуальный ряд вызовет это чувство, и она угадывает неточно.
- «lots of movement» — провоцирует хаотичное движение по всему кадру. Вместо этого назовите одно конкретное движение.
- «glow» / «glimmer» / «glints» — создают покадровое мерцание бликов. Используйте «steady intensity» или «diffuse».
Общий принцип: если слово описывает эмоцию, а не визуальный элемент, модель вынуждена переводить эмоцию в картинку самостоятельно, и результат этого перевода редко совпадает с тем, что вы имели в виду.
Покадровый промптинг с таймкодами
До этого момента мы разбирали промпт как описание одного непрерывного кадра. Но Seedance позволяет режиссировать несколько кадров внутри одной генерации, прописывая временные метки прямо в тексте промпта. Вы разбиваете 15-секундный ролик на сегменты и описываете каждый отдельно — с собственным положением камеры, действием субъекта и состоянием освещения.
Работают два формата записи. Первый — диапазоны в квадратных скобках:
| [0-4s]: широкий установочный кадр, статичная камера, туманный бамбуковый лес на рассвете, golden hour light filtering through leaves [4-9s]: средний план, slow push-in, боец делает шаг вперёд, белое шёлковое кимоно развевается, решительное выражение лица [9-15s]: крупный план, orbit shot, боец наносит удар, замедленная съёмка, impact visible in fabric ripple |
Второй — секунды в круглых скобках:
| (0-3s) макросъёмка флакона духов среди розовых цветов, shallow depth of field, лепестки в воздухе (3-7s) камера плавно приближается, женская рука входит в кадр, касается флакона (7-12s) замедленное распыление, дымка рассеивается в воздухе, частицы ловят rim light (12-15s) pull-out на героический кадр, продукт в центре, volumetric lighting, минимальный фон |
Между кадрами стоит указывать тип перехода — «hard cut to» для резкой склейки или «seamless morph into» для плавного перетекания. Если не указать, модель выберет переход сама, и не всегда удачно.
На платформе Higgsfield можно поставить в очередь несколько вариантов одного покадрового промпта и сравнить результаты — это самый быстрый способ подобрать нужный ритм.
Шаблон 15-секундной кульминационной дуги. Это универсальная эскалационная структура, перенесённая из классического кинематографа в 15-секундное окно генерации:
| [0-4s]: широкий план, статика, мир установлен, фоновый звук [4-8s]: средний план, slow push-in, напряжение нарастает, субъект готовится [8-12s]: крупный план, эмоциональный пик приближается, одна деталь в резком фокусе [12-15s]: сверхкрупный план или драматичное раскрытие, кульминация, замедление или статичный стоп-кадр, тишина |
Логика простая: широко → теснее → тесно → ближе всего. Каждый следующий кадр сужает рамку и усиливает концентрацию внимания зрителя.
Система @-референсов
Люди, которые получают результаты без узнаваемого AI-характера, как правило загружают от 6 до 12 референсных файлов и помечают каждый из них конкретной ролью в промпте. Разница между набором текста и полноценной режиссурой во многом определяется именно этой системой.
Правило простое: каждый загруженный файл должен иметь явную роль в промпте, обозначенную через @-тег. Изображение без тега модель обработает, но неоднозначно — она не будет знать, это референс персонажа, фона, освещения или настроения. Неоднозначность в модели генерации приводит к усреднению, а усреднение — это визуальная каша.
Отдельно стоит упомянуть приём «первый-последний кадр». Вы загружаете желаемый первый кадр как @Image1 и желаемый последний кадр как @Image2, а в тексте описываете, что должно произойти между ними. Модель сама построит связное движение, соединяющее две конечные точки. Никакой ручной раскадровки, никаких многошаговых конвейеров — два изображения, текстовое описание перехода, одна генерация.

