Generowanie wideo · · 6 min czytania
Sora: jak zacząć tworzyć wideo AI
Dostęp, anatomia promptu, długość klipów, remix i typowe błędy. Praktyczny start z Sorą.
Sora zamienia opis tekstowy w wideo. Brzmi prosto, ale pierwszy tydzień to seria klipów, w których ręce mają sześć palców, samochód przenika przez ścianę, a napis na koszulce zmienia się w trakcie ujęcia. To nie jest wina narzędzia — to brak metody. Ten poradnik daje metodę: jak dostać dostęp, jak budować prompt, gdzie Sora wygrywa z Runwayem i Klingiem, a gdzie przegrywa, i jak iterować, żeby z dziesięciu klipów dwa były naprawdę dobre.
Dostęp i plany
Sora działa przez konto OpenAI, najczęściej w pakiecie razem z subskrypcją ChatGPT. W praktyce spotkasz dwa poziomy: tańszy (typu Plus) z limitem kilkudziesięciu generacji miesięcznie, krótszymi klipami i niższą rozdzielczością, oraz droższy (typu Pro) z większym limitem, dłuższymi klipami, wyższą rozdzielczością i mniejszą liczbą znaków wodnych w niektórych regionach. Traktuj te liczby jako orientacyjne — OpenAI zmienia limity i ceny częściej niż raz na kwartał, więc zweryfikuj aktualny stan w swoim panelu przed zakupem.
- Sprawdź dostępność w swoim kraju — rollout bywa regionalny i czasowo wstrzymywany.
- Zacznij od tańszego planu na tydzień testów, zanim zapłacisz za wyższy.
- Limity generacji liczą każdą próbę, także nieudaną — planuj prompty, nie strzelaj na ślepo.
- Eksport z dłuższego planu zwykle daje czystszy materiał do dalszego montażu.
Anatomia promptu
Dobry prompt do wideo to nie jedno zdanie, tylko pięć warstw poskładanych w spójny opis. Każda warstwa odpowiada za inny element kadru i każda, której nie napiszesz, zostanie zgadnięta przez model — zwykle nieoptymalnie.
- Podmiot — kto albo co jest w kadrze, z konkretami (wiek, ubiór, materiał, kolor).
- Akcja — co robi, jednym ruchem na klip; nie pakuj trzech czynności w pięć sekund.
- Kamera — typ ujęcia i ruch:
static wide shot,slow dolly in,handheld tracking,top-down. - Światło — pora dnia i charakter:
soft morning light,harsh noon sun,neon night. - Styl — estetyka i medium:
35mm film,anime cel,documentary,claymation.
Kolejność ma znaczenie — zaczynaj od podmiotu i akcji, bo to one definiują, co model animuje. Styl i światło na końcu działają jak filtr nałożony na scenę. Unikaj przeczeń („bez tłumu w tle”) — modele wideo słabo je rozumieją i często dają dokładnie to, czego zakazujesz. Zamiast tego opisz pozytywnie to, co ma być: „pusta ulica o świcie”.
Druga zasada: konkret bije ogólnik. „Mężczyzna idzie” zostawia modelowi zbyt dużo swobody i co generacja dostaniesz inną postać. „Starszy mężczyzna w granatowym płaszczu idzie powoli, ręce w kieszeniach” daje powtarzalność. Nie pisz jednak eseju — cztery do sześciu mocnych fraz na warstwę wystarczy. Zbyt długi prompt model przycina i gubi to, co napisałeś na końcu, więc najważniejsze szczegóły trzymaj bliżej początku.
Długość klipu i proporcje
Sora generuje krótkie klipy — orientacyjnie od kilku do kilkunastu sekund na jedną generację, w zależności od planu i rozdzielczości. To nie jest narzędzie do nakręcenia jednego ujęcia na trzy minuty; to generator cegiełek, które potem składasz w montażu.
- 16:9 — YouTube, prezentacje, ujęcia „filmowe” na poziomy ekran.
- 9:16 — Reels, TikTok, Shorts; komponuj akcję w centrum i górnej części kadru.
- 1:1 — feed, miniatury, gdy nie znasz docelowego formatu.
Im krótszy klip, tym mniejsza szansa na morphing i dryf fizyki, bo model ma mniej klatek do pomyłki. Jeśli potrzebujesz dłuższej sceny, generuj kilka krótkich ujęć tej samej sytuacji i sklej je — wyjdzie stabilniej niż jedna długa generacja.
Storyboard i remix
Dwie funkcje, które odróżniają pracę „na ślepo” od reżyserii. Storyboardpozwala rozpisać klip na punkty w czasie i przypisać do każdego osobny opis — podmiot idzie, potem się zatrzymuje, potem odwraca. To daje kontrolę nad sekwencją zdarzeń, której pojedynczy prompt nie zapewni.
Remix bierze istniejący klip i zmienia jeden parametr przy zachowaniu reszty — ta sama scena, ale w deszczu; ta sama postać, ale w innym ubraniu. To najtańszy sposób iteracji, bo nie zaczynasz od zera. Workflow, który działa: jedna mocna generacja jako baza, potem trzy–cztery remixy zmieniające po jednej rzeczy naraz. Zmiana wielu rzeczy jednocześnie sprawia, że nie wiesz, co poprawiło wynik.
Typowe błędy i jak je ograniczać
Modele wideo mają powtarzalny zestaw artefaktów. Znając je, omijasz większość frustracji.
- Morphing — obiekty płynnie zmieniają kształt. Skróć klip, uprość scenę, ogranicz liczbę poruszających się elementów.
- Glitche fizyki — przenikanie obiektów, dziwna grawitacja. Wybieraj proste, naturalne ruchy; unikaj złożonych kolizji i tłumów.
- Artefakty tekstu — napisy i logo „tańczą” i są nieczytelne. Nie licz na poprawny tekst w generacji; dokładaj napisy w montażu.
- Niespójne ręce i twarze — zwłaszcza w ruchu. Trzymaj postać w średnim planie, unikaj szybkich gestów dłoni w pierwszym planie.
- Dryf stylu — estetyka zmienia się w trakcie. Krótszy klip i jeden dominujący opis stylu zamiast trzech sprzecznych.
Generalna zasada: każdy artefakt nasila się z długością klipu i złożonością sceny. Najtańsza mitigacja to mniej — mniej sekund, mniej ruchu, mniej elementów.
Workflow iteracji
Nie traktuj generacji jak loterii. Traktuj jak eksperyment z jedną zmienną. Sprawdza się prosty cykl:
- Napisz prompt w pięciu warstwach i wygeneruj wersję bazową.
- Oceń jedną rzecz, która jest najsłabsza (ruch? światło? podmiot?).
- Zmień tylko ten jeden element — promptem albo remixem.
- Porównaj z bazą; zatrzymaj lepsze, odrzuć gorsze.
- Powtarzaj, aż masz kandydata do montażu, a nie „w miarę ok”.
Zapisuj prompty, które zadziałały — to twoja prywatna biblioteka, warta więcej niż jakikolwiek poradnik. Po dwóch tygodniach będziesz mieć zestaw sprawdzonych szablonów ujęć, które wystarczy podmienić w jednym miejscu.
Ustal sobie też limit prób na jedno ujęcie — przykładowo pięć generacji. Jeśli po pięciu nie ma kandydata, to zwykle znak, że problem jest w samym pomyśle na ujęcie, a nie w sformułowaniu promptu. Wtedy zmień podejście: uprość scenę, skróć klip albo rozbij ujęcie na dwa prostsze. Uporczywe powtarzanie tego samego promptu z drobnymi zmianami słów rzadko ratuje scenę, która jest po prostu za trudna dla modelu — a pożera limit generacji, który masz policzony co do sztuki.
Przykładowe struktury promptów
Cztery szkielety, które możesz wypełnić własnymi szczegółami. To nie są gotowce do wklejenia — to wzorce kolejności i poziomu konkretu.
- Produkt na stole: podmiot (kubek ceramiczny z parującą kawą), akcja (para unosi się powoli), kamera (slow dolly in), światło (miękkie poranne od okna), styl (35mm, płytka głębia ostrości).
- Postać w ruchu: podmiot (biegaczka w czerwonej kurtce), akcja (biegnie wzdłuż nabrzeża), kamera (handheld tracking z boku), światło (złota godzina), styl (dokumentalny, lekkie ziarno).
- Atmosfera miejsca: podmiot (pusta uliczka starego miasta), akcja (mży deszcz, odbicia w bruku), kamera (static wide shot), światło (neon nocą), styl (kinowy, kontrastowy).
- Ujęcie abstrakcyjne: podmiot (kropla atramentu w wodzie), akcja (rozpływa się w smugi), kamera (makro, top-down), światło (równe, studyjne), styl (zwolnione tempo, czyste tło).
Sora vs Runway vs Kling
Żadne z tych narzędzi nie wygrywa we wszystkim. Wybierasz pod konkretne ujęcie, nie raz na zawsze.
- Sora wygrywa przy spójności sceny, naturalnym ruchu i rozumieniu złożonych, narracyjnych opisów — mocna w „filmowych” ujęciach z atmosferą.
- Runway wygrywa przy precyzyjnej kontroli (motion brush, maski, edycja istniejącego wideo) i szybkim, iteracyjnym workflow dla montażystów.
- Kling wygrywa często przy dłuższych, płynnych ruchach postaci i bywa hojniejszy w darmowych generacjach — dobry do testów ilościowych.
W praktyce wielu twórców generuje warianty tej samej sceny w dwóch narzędziach i wybiera lepsze ujęcie. To nie marnotrawstwo — to tańsze niż dziesięć poprawek w jednym narzędziu, które akurat nie radzi sobie z danym typem ruchu.
Prosta heurystyka wyboru: jeśli ujęcie opowiada historię i ma żyć atmosferą — zacznij od Sory. Jeśli masz już materiał i chcesz go edytować albo precyzyjnie sterować ruchem jednego elementu — Runway. Jeśli liczy się długi, płynny ruch postaci i chcesz przepalić dużo tanich prób — Kling. Wszystkie trzy zmieniają się z miesiąca na miesiąc, więc tę tabelę traktuj jako stan na dziś, nie wyrok — co kwartał warto wygenerować ten sam testowy prompt w każdym z nich i sprawdzić, kto akurat prowadzi.
TL;DR
Zacznij od tańszego planu i tygodnia testów. Buduj prompt w pięciu warstwach: podmiot, akcja, kamera, światło, styl — pozytywnie, bez przeczeń. Generuj krótkie klipy i składaj je w montażu zamiast walczyć o jedno długie ujęcie. Iteruj jedną zmienną naraz, korzystaj z remixu, zapisuj działające prompty. Tekst i logo dokładaj poza generacją. Sorę wybieraj do spójnych, atmosferycznych ujęć; Runway do kontroli i edycji; Kling do długich ruchów i tanich testów.