Jak powstał teledysk AI 4dziki - "Wszystko jest proste"

02 - Fundament techniczny

Technolog był na miejscu wcześniej - i szybko okazało się, że to za mało

Ważne, żeby tego nie ubarwiać: rola @cto (Chief Technology Officer) nie powstała na potrzeby tego teledysku. @cto istniał dużo wcześniej - jako jeden z asystentów całego systemu zbudowanego w środowisku Claude Code (terminal). To istniejący technolog: integracje, automatyzacje, porządek w narzędziach. Pragmatyk, nie kreatywny.

Filozofia tej roli jest prosta: proste klocki, nie wielkie systemy. Jedno połączenie, test, następne. Technologia ma robić nudną, powtarzalną robotę: konfiguracja narzędzi (Kling, ffmpeg, środowisko Pythona do analizy audio), skrypty łączące etapy, porządek plików roboczych. To realnie pomogło i to zostaje.

Co się naprawdę wydarzyło na starcie

Kiedy ruszał teledysk, pierwszy odruch był oczywisty: skoro mamy technologa od narzędzi i automatyzacji, niech on poprowadzi też kreację. To była błędna intuicja - i dobrze, bo szybko się obnażyła.

Próba: @cto dostaje zadanie kreatywne

Pierwsze podejście - poprosiliśmy istniejącego @cto o poprowadzenie reżyserii i koncepcji teledysku. Logika "mamy asystenta, użyjmy go".

Szybka porażka (kwestia sekund)

Po niecałych ~30 sekundach było jasne: @cto nie daje rady z reżyserią. To technolog - myśli integracjami, prostotą, bezpieczeństwem, nie łukiem dramaturgicznym, archetypem czy kompozycją kadru. Nie jego rola. Nie udawał, że umie.

Wniosek: potrzebny ktoś inny

Z tej porażki wyszła konkretna decyzja: kreacji nie poprowadzi technolog. Trzeba zaprojektować osobną rolę - i zrobić to porządnie, na bazie researchu, nie na czuja.

Dopiero teraz - deep research i @cco

Dopiero po tej porażce ruszył wielomodelowy deep research (sekcja 04), a na jego bazie powstał dedykowany asystent kreatywny @cco (sekcja 05). Kolejność była: próba, porażka @cto, research, @cco. Nie odwrotnie.

To nie jest historia, którą trzeba chować. Technolog nie zastąpi reżysera - i lepiej, że wyszło to w 30 sekund niż po trzech dniach spalonych kredytów. @cto dalej robił swoją robotę (środowisko, skrypty, porządek), a kreację przejął ktoś zbudowany pod kreację.

Ten moment zostawiliśmy
w samym teledysku.

Najmocniejszy dowód tej historii nie jest na tej stronie - jest w samym filmie. Moment przejścia @cto -> @cco zostawił ślad w materiale: od tego punktu jakość wizualna ujęć wyraźnie rośnie. Pierwsze próby (jeszcze podejście techniczne) są płaskie i bez reżyserii. Po przejęciu kreacji przez @cco kadr zaczyna mieć kompozycję, ruch kamery i sens dramaturgiczny. Naszym zdaniem to widać na ekranie - tę granicę zostawiliśmy w teledysku celowo, oceńcie sami.

03 - Fundament audio

Zanim powstał jeden kadr - analiza audio i tekstu

Najczęstszy błąd przy teledysku AI: generujesz ładne obrazki, a potem nie wchodzą w rytm. My zaczęliśmy od dźwięku.

Wokal

Transkrypcja ze znacznikami czasu

Whisper z dokładnością do pojedynczego słowa (word-level timestamps). Wiedzieliśmy co do ułamka sekundy, kiedy pada które słowo - więc obraz mógł trafiać w tekst, nie obok.

Muzyka

Analiza biblioteką librosa

Tempo 195 BPM, mocny akcent (downbeat) co ok. 1,23 s, struktura ok. 25 sekcji - od intro przez zwrotki, bridge, refren, interludium "ty ja", wyznanie, aż po apoteozę za outro.

Z tego powstała mapa audio - jedno źródło prawdy o timingu. Na nią zmapowaliśmy strukturę opowieści. Bez tej analizy każde ujęcie byłoby zgadywaniem, a montaż - loterią. To była fundamentalna decyzja, nie formalność.

Co realnie wypluła analiza

Żeby nie było ogólników - oto fragment realnego outputu z pliku audio-map.md (Whisper small z word-level timestamps + librosa). Cała struktura to ~25 wykrytych sekcji utworu. Poniżej fragment tabeli z timestampami:

4:54

długość (294s)

195

BPM

1.23s

1 takt (4 takty ≈ 5s)

~25

wykrytych sekcji

Czas	Sekcja	Co się dzieje
0:00-0:09	Intro gitary	Tylko gitary, samotność, klimat - brak perkusji, brak wokalu
0:09-0:28	+Perkusja + "oooo"	Perkusja wchodzi, wokal samogłoskowy "oooo", energia rośnie
0:34-0:43	Zwrotka 1a	"Każdy mój krok, to walka z własnym cieniem / Każde niewinne słowo ma znaczenie"
0:53-1:01	Bridge 1a	"W moim sercu czyste dobro / W twojej głowie dzikie porno / Nie jesteś sam!"
1:44-1:58	Refren 1 wokal	"MAM, to co chcę MAM / to co chcę MAM! / WSZYSTKO JEST TAKIE PROSTE"
2:08-2:15	Zwrotka 2b	"Ogień nie zgaśnie nigdy, gdy wierzysz, że to Ty"
2:39-3:07	Interlude "ty ja"	"Ty ja, ty ja, ty ja..." + instrumental (28s)
3:36-3:48	Outro zwrotka b	"A Ty wciąż wstajesz, bo w Tobie ogień nigdy nie znikł"
3:48-4:00	⭐ Wyznanie	"Wszystko jest proste wszystko jest jasne / Ufam swemu sercu bo jestem we właściwym miejscu"
4:18-4:54	Apoteoza + outro	"Wszystko jest proste, wszystko jest jasne" x10 - monomaniakalne, hipnotyczne (36s)

Fragment realnej tabeli z audio-map.md (pełna ma ~25 wierszy). Plus osobna tabela key moments z dokładnym timestampem na sync, np. 0:00.07 - najsilniejszy kick (siła 12.89), 4:52 - finalny obraz: kwiat paproci na ostatnim beacie.

04 - Deep research

Najpierw wizja, potem dopracowanie modelami

Kolejność, żeby było uczciwie: najpierw powstał ogólny schemat i wizja - co to ma być, o czym, dokąd prowadzi. Dopiero potem dopracowywaliśmy ten szkielet różnymi modelami AI, które generowały opcje, warianty i kontrę. Modele nie wymyśliły teledysku - dociągnęły rzemiosło pod wizję, która już była.

Konkretnie: to samo zadanie - jak naprawdę robi się narracyjny teledysk z tekstu, od koncepcji po render AI - zadaliśmy pięciu niezależnym modelom AI. Każdy zwrócił osobny raport. Razem ok. 2200 KB analiz w pięciu plikach: frameworki konceptualizacji, łuk dramaturgiczny w 3-5 minut, mapowanie muzyki na obraz, aktualna mapa narzędzi AI video na maj 2026, checklisty i typowe błędy.

Model 1

Claude (43 KB)

Mapa narzędzi AI video na maj 2026 (porównanie modeli pod kątem spójności postaci - wybór padł na Kling), zweryfikowany kanon teledysków z faktami produkcyjnymi, kontekst polski/punk.

Model 2

ChatGPT (84 KB)

7 frameworków konceptualizacji z tekstu, kompresja narracji w 4:54, mapowanie sekcji utworu na punkty zwrotne.

Model 3

DeepSeek (108 KB)

Najobszerniejszy - kompletny framework "od tekstu do storyboardu AI", workflow 8 kroków, librosa + onsety jako punkty cięcia, paleta pod tonację.

Model 4

Gemini (26 KB)

Dyscyplina budżetu renderów ($100/mies), inżynieria odwrotna procesu, worldbuilding = 50% sukcesu, anty-"Midjourney look".

Model 5

Grok (14 KB)

Skalowalny skill DIY punk + duchowość, dobór frameworka (hybryda parallel + metaforyczny + kontrapunkt), prompty copy-paste.

Synteza

5 raportów - 1 rola

Pięć perspektyw zderzonych ze sobą. To, co się powtarzało i potwierdzało, stało się fundamentem asystenta @cco.

Co realnie z tego wyszło - kluczowe ustalenia

Teledysk nie ilustruje muzyki - dramatyzuje ją. Główna teza DeepSeek: ilustracja jest statyczna, dramatyzacja transformuje. Każde ujęcie ma coś zmieniać, nie dekorować.
Framework, nie "pomysł". Pomysł bez frameworka = 30 sekund dobrego materiału i 3 minuty wypełniacza. Dla 4dziki: hybryda parallel + metaforyczny + kontrapunkt (uniwersalna opowieść transformacji z surowością).
Stan narzędzi na maj 2026 (Claude). Pole modeli wideo zmienia się z miesiąca na miesiąc - poradniki z 2025 szybko się dezaktualizują, więc porównaliśmy aktualne narzędzia pod kątem tego, co było nam potrzebne. Kling wygrał spójnością postaci (lock postaci / kotwica 3D) - i to przesądziło o wyborze.
Bohater bez twarzy = rozwiązanie problemu spójności. Gemini/DeepSeek zgodnie: postać w kapturze, bez twarzy, jest najłatwiejsza dla AI - brak rysów = brak dryfu między ujęciami. Stąd czarna sylwetka z magentowym sercem.
Worldbuilding to 50% sukcesu (Gemini). Najczęstszy błąd amatora to plastikowy "Midjourney look". Punk potrzebuje brudu i konkretu: faktura, twarde światło, lokalność ("polskie blokowisko", a nie generyczny cyberpunk).
Tempo cięcia z BPM. Przy 195 BPM (hardcore/punk) cięcia co 2-4 takty; onsety z librosy = potencjalne punkty cięcia. Paleta pod tonację A#/Bb: złudny spokój, czerwień, rdza, agresywny szmaragd na przełamaniu.
Budżet to dyscyplina, nie kreatywność. To była nasza pierwsza taka produkcja - uczymy się i to jest w porządku. Twardym licznikiem są kredyty, nie pliki: część generacji szła w odrzuty (lądowały w "Podebranych" Kling i były kasowane), część kredytów poszła też na zupełnie inne rzeczy zespołu (m.in. klip "Poniedziałek"), niezwiązane z tym teledyskiem. Wniosek dla nas: framework i wybór przed promptem zamiast bezcelowego renderowania - następnym razem mniej spalonych kredytów.
Core message w jednym zdaniu. Ćwiczenie z Gemini: "Ten teledysk jest o tym, że prawda jest dzika, prosta i dostępna, gdy odrzucisz złożoność cywilizacji." To zdanie stało się kompasem każdej decyzji wizualnej.

Sekwencja, uczciwie: wizja i schemat -> dopracowanie pięcioma modelami -> synteza -> dopiero projekt roli @cco -> produkcja. @cco powstał 12.05.2026 jako Chief Creative Officer - hybryda podejść Rubina, Sagmeistera, Carsona, Kubricka i Devlin. To nie była improwizacja przy generatorze obrazków. To rola zaprojektowana na bazie odrobionej pracy.

06 - Kierunek artystyczny

Koncepcja - w którą stronę szliśmy

Zanim padł pierwszy prompt, padła decyzja o tym, czym ten teledysk w ogóle ma być. Nie "jak ma wyglądać" - "o czym jest i dokąd prowadzi". To była decyzja na samym starcie, nie ozdoba doklejona na końcu.

Fundament: najpierw opowieść, potem obraz

Dla 4dziki teledysk to zawsze fabuła z łukiem dramaturgicznym - nigdy zbiór ładnych statycznych ujęć ani ikonografia do podziwiania. Bohater, który gdzieś idzie, coś go zmienia, na końcu jest inny niż na początku. Obraz służy opowieści, nie odwrotnie. To nie estetyczna preferencja - to twardy warunek wejścia do projektu. Bez historii nie ma po co generować ani jednego kadru.

Najpierw opowieść, potem obraz.
Decyzja na starcie, nie ozdoba.

Kierunek: polska baśń

Poszliśmy w stronę polskiej baśni - słowiańskiej przypowieści. Powód był w samym utworze: "Wszystko jest proste" brzmi jak opowieść o drodze, o dorastaniu, o przejściu przez coś trudnego. Baśń pozwala mówić o rzeczach ciężkich obrazem i symbolem, a nie dosłownie. Walka z własnym cieniem, droga przez mrok, światło na końcu - to język baśni, nie reportażu. Forma sama się narzuciła, gdy słuchaliśmy tekstu.

Bohater: dusza bez twarzy

Bohater to czarna kapturzysta sylwetka z płonącym magentowym sercem - celowo bez twarzy. To nie brak pomysłu, to sens: postać bez rysów jest duszą, everymanem, każdym z nas - może być Tobą. Brak twarzy daje dwie rzeczy naraz: uniwersalność (to nie historia konkretnego człowieka, tylko każdego) i spójność (jeden kanon postaci utrzymany od pierwszej do ostatniej klatki, bez dryfu między ujęciami). Sens i rzemiosło spotkały się w jednej decyzji.

Mitologia słowiańska - znaki na drodze

Świat opowieści budujemy z motywów słowiańskich. Każdy z nich nie jest dekoracją - ma funkcję w drodze bohatera (mapowanie na akty z mapy audio):

Akt I

Bies

Cień, przeciwnik wewnętrzny. To z nim bohater walczy na ulicy - "walka z własnym cieniem". Wraca w akcie II, atakuje, bohater pada.

Akt I

Dziad

Przewodnik we mgle. Pojawia się w bridge'u "Nie jesteś sam" - "Uwierz mi, ja byłem TAM". Pomaga wstać po upadku.

Akt II / III

Leszy

Duch lasu. Bohater spotyka go na polanie w interludium "ty ja" - spotkanie z samym sobą. W apoteozie sam staje się Leszym.

Znak zespołu

Dzik-totem

Znak 4dziki wpleciony w mitologię. Dla fanów "to nasz znak", dla obcych - słowiański duch lasu. Dwa odczyty, jeden symbol.

Cel wędrówki

Kwiat paproci

Legendarny słowiański skarb. Cel całej drogi - pojawia się dopiero na samym końcu, po niego bohater idzie przez mrok. Wraca też w momencie, gdy bohater unosi się do góry po spotkaniu z dzikiem. W kwiat wpleciona jest szyszynka (epifiza) - owinięta jego płatkami. Szyszynka to symbol duchowego "trzeciego oka": wewnętrznego widzenia i intuicji. W słowiańsko-duchowym kluczu skarb to nie błyskotka - to wgląd.

Klimat

Noc Kupały

Tonacja całego świata: magentowe iskry jak ognie świętojańskie, mgła między pniami, noc, w której paproć ma zakwitnąć.

Struktura trzech aktów - opowieść nałożona na mapę audio

To nie zgadywanie. Strukturę opowieści nałożyliśmy na realną mapę audio (sekcja 03) - timing aktów wynika z timingu utworu, nie z przeczucia:

AKT I - Blokowisko / mrok (0:00-1:32). Setup świata: betonowe blokowisko, dach, sylwetka. Bohater schodzi na ulicę, walczy z biesem (cieniem), w mgle spotyka dziada - "Ja byłem TAM". Z asfaltu zaczyna wybijać mech i paproć.
AKT II - Bór / próby (1:32-3:07). Bohater wbiega w polski bór - "MAM, to co chcę MAM". Mija leśne kapliczki i świece, bies atakuje, bohater pada, dziad pomaga wstać. Na polanie spotyka samego siebie - Leszego ("ty ja, ty ja").
AKT III - Leszy / apoteoza (3:07-4:54). Wybór, klęka, korzenie biorą. Intymny close-up wyznania ("Ufam swemu sercu") - najciemniej przed świtem. Ziemia pochłania, wybuch światła, bohater wstaje jako Leszy. Bieg przez las, świt, kwiat paproci.

Klamra i sens: szukałeś magicznego, znalazłeś proste

Łuk prowadzi przez mrok i próby do apoteozy - pierwszej pełni koloru w całym filmie. A potem przychodzi meta-zwrot: okazuje się, że całą tę baśń ktoś maluje - autor, sam wokalista, w zwykłym pokoju. Prawdziwym skarbem nie jest magia ani kwiat paproci z legendy. Skarbem jest zwykłe życie - i to, że TY SAM jesteś jego kreatorem. Jak namalujesz, tak będzie. Bohater szuka magicznego artefaktu przez cały film, a finał mówi: artefaktu nie ma, jest pędzel w Twojej ręce.

Jesteś kreatorem swojej rzeczywistości.
Jak namalujesz, tak będzie - pamiętaj o tym.

To serce przekazu, nie ozdoba. Nie magia decyduje, co się wydarzy - decyduje ten, kto trzyma pędzel. Kwiat paproci, bies, leszy, cała słowiańska maszyneria - to były tylko obrazy, które ktoś namalował. Łapiesz to dopiero, gdy kamera wyjeżdża z rysunku.

Szukałeś magicznego,
znalazłeś proste.

To dosłowny sens tytułu i puenta całej konstrukcji. "Wszystko jest proste" nie jest hasłem doklejonym do ładnych ujęć - jest meta-zwrotem, do którego prowadziła każda scena. Forma jest treścią: cała baśniowa złożoność istnieje wyłącznie po to, żeby na końcu rozpłynąć się w czymś prostym. Wszystko JEST proste - to my to komplikujemy, dokładamy mrok, biesy i magiczne skarby do czegoś, co i tak było proste od początku. Dopiero kiedy ten sens był ustalony, ruszyła egzekucja - narzędzia, workflow, prompty. Nie odwrotnie.

07 - Narzędzia

Stack - co i do czego

Żadnego sekretu. Oto pełna lista narzędzi i czemu każde z nich służyło.

Claude Code (terminal)

Środowisko orkiestrujące CAŁOŚĆ. Tu żyją asystenci @cto i @cco, stąd odpalany jest ffmpeg, tu zarządzane są pliki projektu, prompty, mapa audio, kolejność ujęć, ocena wyciągniętych klatek i koordynacja całej pętli produkcyjnej. Bez tej warstwy reszta stacku to luźne narzędzia bez dyrygenta - to tu człowiek i AI pracują razem krok po kroku.

Kling AI

Generowanie wideo (Video 3.0). Tryby: pojedyncze ujęcia 5 s, Multi-Shot (3 x 5 s), image-to-video (klatka startowa + klatka końcowa dla ciągłości), Bind Elements / Video Element (biblioteka postaci - lock twarzy/postaci na poziomie modelu, użyty do utrzymania twarzy wokalisty), Image Generation 3.0 (próby miniaturki). Tym razem wszystko klikane ręcznie w panelu - świadomy następny krok to spięcie tego przez API (automatyzacja pętli generacji i pobierania klipów), planowane przy kolejnym projekcie.

ffmpeg

Ekstrakcja klatek z każdego wygenerowanego ujęcia - do oceny jakości i jako klatki startowe kolejnych ujęć. Ostatnia klatka jednego ujęcia = pierwsza klatka następnego. Tak budowaliśmy ciągłość.

CapCut

Montaż finalny - to już ręcznie. Tego nie robi AI: synchronizacja do ścieżki audio, twarde cięcia w rytm (BPM 195), nakładanie warstwy tekstowej. Człowiek składa wygenerowane ujęcia w teledysk, klatka po klatce, na słuch.

Whisper + librosa

Python. Analiza audio i tekstu - transkrypcja ze znacznikami czasu oraz tempo, struktura i akcenty utworu (patrz sekcja 02).

Photoshop

Adobe Photoshop - typografia i dopracowanie miniaturki YouTube. Nałożenie tytułu (Archivo Black), korekta kadru wziętego z gotowego filmu, retusz pod 1280x720.

08 - Metoda

Workflow - serce tego projektu

Dla KAŻDEGO ujęcia powtarzaliśmy tę samą pętlę. To ona robi różnicę między teledyskiem a losowym kolażem AI.

Trzy różne motywy koncepcyjne

@cco daje trzy RÓŻNE logiki wizualne na to samo ujęcie - nie warianty tego samego, tylko realnie różne pomysły.

Człowiek wybiera kierunek

Decyzja należy do Michała. Bez wyboru nie ma promptu - to twarda zasada protokołu.

Dopiero teraz - szczegółowy prompt

Rozpisany sekundowo: choreografia kamery (dystanse w metrach, nazwane pozycje, fazy ruchu), ścisła paleta barw (kody HEX), gęste warstwy ruchu, długa lista wykluczeń.

Generacja w Kling

Ujęcie 5-15 s. Dłuższe tylko, gdy efekt potrzebuje powietrza.

Ekstrakcja klatek i krytyka z 3 perspektyw

ffmpeg wyciąga klatki. Ocena: koncept / widz / pamięć obrazu. Werdykt: zostaw albo regeneruj.

Klatka końcowa = start następnego ujęcia

Ostatnia klatka zaakceptowanego ujęcia staje się pierwszą klatką kolejnego. Tak rodzi się ciągłość.

Zasady, które wypracowaliśmy po drodze

Kamera zawsze rozpisana konkretnie. Nigdy ogólnikowy "powolny ruch" - zawsze metry, nazwane pozycje, fazy w czasie.
Spójny character-lock. Kanon postaci kopiowany 1:1 do każdego promptu - inaczej bohater "dryfuje".
Świadome unikanie słów blokowanych przez moderację modelu. Część słów zawodzi nawet w sekcji wykluczeń - trzeba je znać.
Głębia 3D / parallax zamiast płaskiej grafiki 2D. Ruch kamery działa tylko w bogatym, wielowarstwowym środowisku.
Jeden krok na raz, w tempie człowieka. Bez wyścigów do przodu. Słuchaj dokładnie, na której frazie jesteś.

09 - Pod maską

Jak naprawdę wygląda taki prompt

Żeby nie było ściemy, że "wpisaliśmy zdanie i wyszedł teledysk" - oto realny prompt z tej produkcji. Skrót, bo pełny jest dłuższy, ale widać gęstość: kamera rozpisana sekundowo, paleta w kodach HEX, długa lista wykluczeń.

Refren - "wkroczenie do lasu" (R5 v2) Kling Video 3.0 / 5 s / 1080p

FULL FRAME EDGE-TO-EDGE COMPOSITION. Image fills entire video frame
corner to corner. NO border, NO frame. Seamless full-bleed.

DOMINANT BACKGROUND: deep purple-black night sky (#2D1B4E) visible
between tree canopy. Dark slavic forest interior with tall birches
(brzozy) and pines. Volumetric bone-white fog (#E8D5B7) drifting
between tree trunks. Magenta firefly lights scattered throughout
forest like Kupala Night sparks.

CHARACTER (BOHATER):
Adult tall slim male hooded figure, 1.85m tall, lanky proportions.
LOOSE FLOWING BLACK CLOAK reaching mid-calf with hood up. Hood
interior PURE SOLID BLACK INK FILL, ZERO gradient, ONLY two HOT
MAGENTA PINK #FF006E glowing eye dots. NO face, NO chin, NO mouth.
Magenta heart glowing on chest through cloak.
NO muscular body, NO tight costume, NO action figure look.

ACTION SEQUENCE (5 seconds):
- 0-1s: Bohater CHARGES forward fast into deep forest. Cloak whips
  dramatically behind him. Magenta heart pulsing bright.
- 1-2s: Under his footsteps WAVES OF MAGENTA FERN FRONDS (paproc)
  BURST UPWARD in CHAIN REACTION around his path.
- 2-3s: Bohater STOPS dramatically in forest clearing, heroic
  stance. Magenta heart pulses peak bright.
- 3-4s: CAMERA RAPIDLY ORBITS around bohater. Firefly lights BURST
  from moss like Kupala Night sparks. Tree bark GLOWS magenta.
- 4-5s: Camera settles medium-wide. Bohater surrounded by his
  magenta domain: glowing trees, fireflies, fern carpet.

CAMERA: TWO-PART DYNAMIC MOVE. PART 1 (0-2s) RAPID TRACKING FORWARD,
low angle. PART 2 (3-5s) RAPID ORBITAL ROTATION around bohater.

STRICT PALETTE: pure black #0A0A0A, deep purple #2D1B4E, HOT
MAGENTA PINK #FF006E, bone-white #E8D5B7, forest green #1A3A2A,
warm brown #6B4A2A. NO orange, NO red, NO yellow, NO blue, NO sun.

ABSOLUTELY AVOID: photorealistic, 3D, watercolor, paper texture,
sepia, vignette, visible face inside hood, chin, nose, mouth, white
skin, child proportions, chibi, muscular body, tight bodysuit, TEXT
anywhere, signs, ANY PEOPLE besides bohater, creatures, animals,
weapons, lightning, fire, daylight, sun, blue sky, city buildings.

Skrót realnego promptu z pliku produkcyjnego (oryginał dłuższy). To jest jedno z 66 ujęć wygenerowanych w Kling - i dla każdego powstawał osobny, tak rozpisany prompt. Krótki prompt = słaba kreska i spalone kredyty.

Dwie rzeczy z tego promptu warto zauważyć. Po pierwsze: kamera rozpisana w czasie i przestrzeni (dwie fazy, niskie ujęcie, orbita) - nie "ładnie się rusza", tylko konkret. Po drugie: lista wykluczeń jest dłuższa niż opis sceny. Połowa roboty przy modelu wideo to mówienie mu, czego ma NIE robić - i znajomość słów, które blokuje moderacja modelu (część promptów trzeba było sanityzować, bo wcześniejsza wersja leciała w "horror", a Kling ją odrzucał).

Jeden prompt to za mało, żeby uwierzyć - więc kolejne dwa

Żeby nie było, że pokazujemy jeden wyjątkowo dopracowany. Poniżej dwa kolejne realne fragmenty z plików produkcyjnych - inne sceny, ta sama dyscyplina. Pierwszy pokazuje choreografię kamery w metrach (fizyczny Steadicam, nie "orbita"). Drugi - sanityzację słów blokowanych przez moderację Kling i wplecenie znaku zespołu (dzik) w narrację.

Ulica kamienic - "magiczna esencja" (B2 v5) Kling Video 3.0 / 5 s / 1080p / start frame

SCENE: Hand-drawn 2D cell-shaded cartoon animation. WIDE SHOT of
hooded figure standing in narrow OLD POLISH TOWN STREET between
two rows of 19th century KAMIENICE (polish townhouses, weathered
stucco facades, dark windows with shutters, ornate cornices).
Cobblestone street WET from rain, magenta reflections in puddles.

AMBIENT MOTION LAYERS (background must feel alive without people):
- COLD WIND blowing strongly down the street toward camera
- 3 LAYERS OF FOG drifting at different speeds: thick low fog at
  ankle height (slow), medium fog at chest height (medium), wispy
  high fog near roofs (fast)
- GAS STREETLAMPS on both walls FLICKERING at different rhythms
- 2-3 BLACK RAVEN SILHOUETTES occasionally fly across frame

ACTION SEQUENCE (5 seconds):
- 0-1s: Wide shot FROM FRONT. Camera positioned far back in front
  of bohater (15m back, slight high angle). Bohater small, centered.
- 1-2s: CAMERA SLOWLY DOLLIES IN toward bohater from front.
  Distance closes from 15m to 6m.
- 2-3s: CAMERA REACHES MEDIUM CLOSE-UP from front (3m). Bohater's
  chest GLOWS BRIGHTLY in magenta aura.
- 3-4s: CAMERA ARCS AROUND BOHATER - travels in smooth half-circle
  from front view, sweeping to his RIGHT SIDE then BEHIND him.
- 4-5s: CAMERA FINISHES ARC behind bohater (we see his BACK,
  looking past him down the street). Bohater silhouetted.

CAMERA: DYNAMIC ARC SHOT (orbital push-in). Starts FAR back in
front (15m, slight high angle), then SLOWLY DOLLIES IN while
simultaneously ARCING around him in a smooth half-circle. Like a
Steadicam orbital push-in. Subject stays centered throughout.

Fragment z pliku bridge1-b2-v5-PROMPT.md (klip 919). To jedyne ujęcie z prawdziwym orbitem w całym filmie - i stąd wzięty został przepis na ruch kamery dla każdego kolejnego. Kamera podana w metrach (15m -> 6m -> 3m) i nazwanych pozycjach (FRONT -> RIGHT SIDE -> BEHIND), nie jako "ładny obrót".

Duchowy dzik - totem 4dziki (R6) Kling Video 3.0 / 5 s / 1080p / start frame

CHARACTER 2 - DUCHOWY DZIK (this is the KEY new element):
A MASSIVE SLAVIC SPIRIT WILD BOAR (dzik), approximately 1.5 meters
tall at shoulder (mythologically large, larger than normal boar).
SOLID DEEP BLACK silhouette with thick black ink outlines.
Powerful arched back with raised spine ridge. Long snout.

The dzik has GLOWING MAGENTA FEATURES:
- TWO LONG CURVED TUSKS glowing bright HOT MAGENTA PINK #FF006E
- TWO EYES glowing the same HOT MAGENTA PINK #FF006E as bohater's
  eyes (visual connection - they share the same energy)
- Magenta moss and small ferns growing in his neck fur

The dzik stands STILL and NOBLE - not aggressive, a MYSTICAL
TOTEM appearing to bohater. This is a spiritual encounter, not
a confrontation.

ACTION SEQUENCE (5 seconds):
- 1-2s: DUCHOWY DZIK BURSTS out of thick fog at high speed.
- 2-3s: Dzik RUNS IN A CIRCLE around bohater (Kupala ritual
  circular motion). CAMERA ORBITS following the dzik's run.
- 4-5s: MAGENTA ENERGY BRIDGE forms between bohater's heart and
  dzik's tusks - a glowing magenta connection beam. Their heart
  and tusks pulse in PERFECT SYNC. Sacred slavic recognition.

ABSOLUTELY AVOID: ... dzik attacking, dzik charging aggressively,
dzik with blood, dzik wounded, hunting scene, weapons, spears,
hunters, pigs (this is wild boar not pig), domestic farm pig,
friendly cute pig, realistic photograph of boar.

Fragment z pliku refren1-R6-dzik-PROMPT.md (klip 1310). Dwie rzeczy: znak zespołu (dzik) wpleciony jako słowiański totem, nie doklejony jako logo - dla fanów "to nasz znak", dla obcych duch lasu. I sanityzacja: poprzednia wersja (B2 v4) leciała w słowa "Venom / blood / invasion / demonic", które Kling odrzucał - trzeba je było zamienić na "enchanted ink / mystical liquid / slavic spirit", żeby ujęcie w ogóle się wygenerowało.

Wniosek z trzech promptów razem: to nie "wpisz zdanie". To rozpisany dokument na każde 5 sekund - kamera w metrach, paleta w kodach HEX, lista wykluczeń często dłuższa od opisu sceny i świadomy dobór słów, których nie zablokuje moderacja modelu. Każde z 66 ujęć miało taki własny plik.

10 - Łuk narracyjny

Od mistycznej abstrakcji do zwykłego życia

Końcówka filmu, realizowana 17.05, domyka morał i robi świadomy zwrot. To nie ciąg ładnych ujęć - to opowieść, która ma puentę.

Kadr z teledysku: apoteoza - bohater w kapturze, pełnia koloru rozchodzi się wachlarzem na tle wschodu słońca

Apoteoza. Pierwszy raz w całym filmie uwolniona pełnia barw - wachlarz światła wokół bohatera w polskim borze o świcie. Realny kadr z teledysku.

Domknięcie morału

"Ogień nigdy nie znikł"

Magentowe serce bohatera rozpala martwą równinę. Płomień, który tlił się cały film, w końcu wybucha.

Wyznanie

Świat składa się w bramę

Otoczenie zbiera się wokół bohatera w bramę z linii światła. Chaos zaczyna mieć sens.

Apoteoza

Pole energii - pełnia koloru

Pierwszy raz w całym filmie uwolniona pełnia barw. Świadomy payoff po całym teledysku powściągniętej palety magenta. Czekaliśmy z tym do końca celowo.

Zwrot

Kamera wychodzi z rysunku

Odkrywamy, że całą tę historię maluje człowiek - sam wokalista - w zwykłym pokoju. Klamra: od abstrakcji do realnego życia.

Niuans: nawet "człowiek za kamerą" jest narysowany

Łatwo to przeoczyć, więc mówimy wprost: postać rysownika - autora, który maluje całą baśń - też jest animacją, nie wklejonym zdjęciem. Powstała ZE ZDJĘĆ Michała przez mechanizm Bind Elements w Kling: realne fotografie wokalisty poszły do modelu jako kotwica tożsamości, a model wygenerował narysowaną w stylu filmu wersję jego twarzy - ta sama kreska, ten sam cell-shading co reszta teledysku. To nie jest foto-collage ani zdjęcie doklejone do animacji. To człowiek przepuszczony przez tę samą estetykę co bohater bez twarzy - spójność trzymana nawet w momencie, w którym "wychodzimy z baśni do prawdziwego życia". Reveal działa właśnie dlatego, że nic nie wypada ze stylu.

Finał: kwiat paproci - słowiański skarb zapowiadany przez cały film - leży na parapecie w zwykłym mieszkaniu. Autor zamyka księgę-opowieść. Wszystko jest proste.

Łuk w pięciu realnych kadrach

To nie rendery testowe - to ujęcia z gotowego teledysku, w autorskim stylu utrzymanym od pierwszej do ostatniej klatki:

Czarna sylwetka bohatera w kapturze z magentowym sercem na piersi, w tunelu energii

Bohater / symbol

Czarna sylwetka bez twarzy, magentowe serce na piersi. Świadomy wybór z researchu - postać bez rysów nie dryfuje między ujęciami.

Bohater idzie pustą równiną, unoszące się skały, magentowe żyły światła w pękniętej ziemi

Wyznanie

Najciemniej przed świtem. Pusta równina, unoszące się skały, magentowe żyły rozchodzą się spod stóp bohatera.

Apoteoza

Pełnia koloru wreszcie uwolniona po całym filmie powściągniętej palety magenta. Payoff trzymany do końca celowo.

Wokalista 4dziki z czerwonym irokezem przy biurku, rysunek bohatera ożywa magentową smugą

Reveal autora

Kamera wychodzi z rysunku - całą historię maluje sam wokalista (irokez, koszulka z dzikiem). Też animacja: twarz narysowana ze zdjęć Michała przez Bind Elements, nie wklejone foto.

Magentowy kwiat paproci w doniczce na parapecie, motyl, zwykłe okno

Finał

Kwiat paproci - słowiański skarb z całego filmu - na parapecie zwykłego mieszkania. Klamra: od mitu do codzienności.

12 - Transparentność kosztowa

Ile to kosztowało - bez ściemy

To pierwsze pytanie, jakie dostajemy: "ile kredytów zjadł Kling?", "ile Claude?", "ile to w ogóle kosztowało?". Więc zero owijania w bawełnę - konkret w dolarach. Podajemy orientacyjnie, bo to subskrypcje miesięczne dzielone na wiele rzeczy, nie kwoty co do centa.

Sama produkcja powstała na dwóch płatnych narzędziach: Kling do generowania wideo i Claude jako asystent reżyserski. Oba jako miesięczne subskrypcje, włączone w okresie produkcji. (Wcześniejszy deep research z sekcji 04 korzystał z kilku modeli AI, ale na kontach, których i tak używamy na co dzień - nie doliczamy ich jako osobny koszt tego teledysku.)

1. Kling AI - generowanie wideo

Kling AI

Pro 32,56 USD + Premier 80,96 USD / mies

Najpierw plan Kling Pro - 32,56 USD/mies (3000 kredytów). Wykorzystany w całości - kredyty się skończyły w trakcie produkcji. Było jej więcej, niż zakładaliśmy, więc trzeba było przejść wyżej.

Plan obecny: Kling Premier - 80,96 USD/mies (8000 kredytów). Z tego planu zeszło dotąd około 2000 kredytów - przy czym to nie był tylko ten teledysk: część poszła na zupełnie inne rzeczy zespołu (m.in. klip "Poniedziałek" i inne zabawy z generowaniem), niezwiązane z tą produkcją. Po tym teledysku został spory zapas kredytów (z 8000 zeszło około 2000) - i ten zapas idzie na bieżąco na kolejne klipy. Czyli sam teledysk wyszedł naprawdę tanio.

Kling Pro (3000 kr.) - wykorzystany w całości	32,56 USD
Kling Premier (8000 kr.) - ~2000 kr. zużyte (część na inne projekty, m.in. "Poniedziałek")	80,96 USD

Ważne, żeby nie zawyżać: z planu Premier na ten teledysk zeszła tylko część (większość kredytów została i idzie na kolejne produkcje). Realny koszt TEGO teledysku jest więc dużo niższy niż suma obu planów - duża część tych pieniędzy to inwestycja w przyszłe projekty zespołu, nie koszt tego jednego klipu. Dodatkowo część rzeczy (miniaturkę, montaż-recap) zrobiliśmy bez generacji, z gotowych klatek z udanych ujęć - żeby nie palić kredytów.

2. Claude - asystent reżyserski

Claude (środowisko Claude Code, role @cto i @cco)

wspólna subskrypcja - udziału w tym projekcie nie da się twardo wydzielić

Claude (asystent reżyserski @cco) to narzędzie, z którego Michał korzysta na co dzień do wielu różnych rzeczy - nie tylko tego teledysku. Dlatego udziału tego konkretnego projektu nie da się twardo wydzielić. Uczciwie: tego udziału nie da się twardo wydzielić - to ta sama subskrypcja, z której Michał korzysta codziennie do wielu rzeczy. Nie podajemy liczby tokenów ani kwoty „na oko", bo wpisywanie tu zmyślonej liczby byłoby ściemą, a o ściemie ta strona jest właśnie po to, żeby jej nie było.

Claude (przez Claude Code) pełnił rolę środowiska i asystenta reżyserskiego: koncepcja i big idea, układanie workflow, analiza audio (tempo, struktura, timing fraz), pisanie precyzyjnych promptów do Kling. Bez tej warstwy Kling dostawałby krótkie, słabe polecenia - a krótki prompt to słaba kreska i spalone kredyty.

Puenta: rząd wielkości

Rząd kosztów narzędzi w okresie produkcji to ok. 113 USD samego Klinga (Pro 32,56 + Premier 80,96) plus udział wspólnej subskrypcji Claude, którego nie da się twardo wydzielić - łącznie rząd stu kilkudziesięciu USD. Przy czym większość kredytów Kling została na przyszłe produkcje, więc realny koszt tego jednego teledysku jest istotnie niższy.

Klasyczny narracyjny teledysk z ekipą, sprzętem i postprodukcją to realnie rząd dziesiątek tysięcy złotych. Tutaj rząd wielkości to ok. 130 USD subskrypcji plus czas i reżyseria człowieka - czyli ułamek kosztu klasycznej produkcji. Podajemy rzędy wielkości, nie twardą kwotę w złotówkach, bo to przeliczenia z dolarów i subskrypcji dzielonych na wiele rzeczy.

Wniosek: bariera wejścia do narracyjnego teledysku spadła z "potrzebujesz wytwórni" do "potrzebujesz dwóch subskrypcji i pomysłu na historię". Reszta to praca.

13 - Czego się nauczyliśmy

Lekcje - szczerze

To była pierwsza przymiarka Michała do pełnego narracyjnego teledysku AI. Krzywa uczenia stroma, dużo wniosków zebranych po drodze. Następny pójdzie znacznie szybciej i taniej - bo są już gotowe przepisy, bind postaci ustawiony od startu i spory zapas kredytów na koncie.

To pierwsza przymiarka

Pierwsze podejście do pełnego teledysku AI. Następny pójdzie znacznie szybciej i taniej: gotowe przepisy, bind postaci od startu, spory zapas kredytów. Najdroższy jest zawsze pierwszy raz.

Kamera rozpisana sekundowo

Ogólnik "powolny ruch" = model robi statykę. Trzeba podać metry, fazy ruchu i co dzieje się w której sekundzie. Konkret, nie nastrój.

Czasem lepiej NIE generować

Kling gubi czarną sylwetkę na czarnym tle. Miniaturka nie powstała z generacji - wzięliśmy gotową, mocną klatkę z samego filmu. Wiedza, kiedy odpuścić AI, jest częścią rzemiosła.

Bind Elements ratuje spójność

Lock postaci na poziomie modelu rozwiązuje największy problem teledysku AI: ta sama postać i twarz w każdym ujęciu. Bez tego bohater "dryfuje".

Ciągłość przez klatki

Ostatnia klatka jednego ujęcia = pierwsza klatka następnego. Tak buduje się płynne przejścia zamiast losowych cięć.

Protokół: koncept przed promptem

3 różne motywy koncepcyjne -> wybór człowieka -> dopiero szczegółowy prompt. Nigdy odwrotnie. Wybór jest pracą człowieka, nie modelu.

Jeden krok na raz, w tempie człowieka

AI nie może wybiegać do przodu. Słuchaj dokładnie, na której frazie jesteś. Wyścig = chaos i spalone kredyty.

Moderacja blokuje słowa

Część słów blokuje filtr modelu (np. "horror"). Prompty trzeba sanityzować - znać synonimy, które przechodzą.

Konkret bije abstrakcję

Konkretny fizyczny aktor + konkretna akcja + choreografia kamery. Abstrakcja spłaszcza obraz - model nie ma czego "zagrać".

Technolog nie zastąpi reżysera

Próba poprowadzenia kreacji przez @cto padła w ~30 sekund. Dlatego powstał @cco. Dobre narzędzie w złej roli to nadal zła rola.

AI to nie guzik "zrób teledysk"

To dziesiątki iteracji, krytyki i wyborów. Wartość leży w reżyserii, krytyce i decyzji - nie w samej generacji. AI trzyma wiedzę warsztatową, tempo i konsekwencję. Człowiek trzyma wizję, smak i decyzję. Ani AI samo, ani człowiek sam nie zrobiłby tego tak. To narzędzie, nie zastępstwo.

Jak powstał teledysk AIdo "Wszystko jest proste"

Żeby pokazać, że to możliwe

Dowód wykonalności

Transparentność

Inspiracja i instrukcja

Odciążenie

Pełny teledysk. Bez budżetu na ekipę. Jeden spójny styl.