Niezależny zespół punkowy z Wrocławia, bez budżetu na klasyczną produkcję, zrobił pełny narracyjny teledysk animowany w spójnym autorskim stylu. Nie przechwałka. Dowód, że da się - i instrukcja, jak. Dokładny zapis: od analizy audio po finałowy kadr, łącznie z kosztami bez ściemy.
Klasyczna produkcja narracyjnego teledysku to ekipa, sprzęt, lokacje, postprodukcja - rachunek liczony w dziesiątkach tysięcy złotych. Dla niezależnego zespołu bez wytwórni to często sufit nie do przebicia. Sprawdziliśmy, czy da się inaczej. Da się. Ta strona to dowód i instrukcja - nie przechwałka. Pełni cztery funkcje:
Niezależny zespół bez budżetu na klasyczną produkcję MOŻE zrobić pełny narracyjny teledysk z AI. Pokazujemy, że to realne - krok po kroku.
Tak, AI. Oto dokładnie jak i ile to kosztowało. Bez ściemy, bez ukrywania, bez owijania w bawełnę.
Realny workflow dla innych twórców - muzyków, zespołów, filmowców. Proces, nie iluzja jednego przycisku. Bierz i rób u siebie.
Zamiast odpowiadać na to samo pytanie w kółko - odsyłamy tutaj. Jeden link, pełna odpowiedź.
"Wszystko jest proste" to hardcore punk z momentami liryczno-duchowymi. Utwór trwa 4:54, leci w tempie 195 BPM. Klasyczny łuk dramaturgiczny: od ciemności do światła.
Zadanie było konkretne: nakręcić pełen narracyjny teledysk animowany, bez pieniędzy na ekipę, plan zdjęciowy i postprodukcję, a mimo to w jednym, rozpoznawalnym, autorskim stylu. Nie kolaż przypadkowych klipów. Opowieść z początkiem, środkiem i końcem - polska baśń poprowadzona przez trzy akty.
Nie chcieliśmy "darmowego efektu AI". Chcieliśmy reżyserii. Różnica jest cała ta strona.
Ważne, żeby tego nie ubarwiać: rola @cto (Chief Technology Officer) nie powstała na potrzeby tego teledysku. @cto istniał dużo wcześniej - jako jeden z asystentów całego systemu zbudowanego w środowisku Claude Code (terminal). To istniejący technolog: integracje, automatyzacje, porządek w narzędziach. Pragmatyk, nie kreatywny.
Filozofia tej roli jest prosta: proste klocki, nie wielkie systemy. Jedno połączenie, test, następne. Technologia ma robić nudną, powtarzalną robotę: konfiguracja narzędzi (Kling, ffmpeg, środowisko Pythona do analizy audio), skrypty łączące etapy, porządek plików roboczych. To realnie pomogło i to zostaje.
Kiedy ruszał teledysk, pierwszy odruch był oczywisty: skoro mamy technologa od narzędzi i automatyzacji, niech on poprowadzi też kreację. To była błędna intuicja - i dobrze, bo szybko się obnażyła.
Pierwsze podejście - poprosiliśmy istniejącego @cto o poprowadzenie reżyserii i koncepcji teledysku. Logika "mamy asystenta, użyjmy go".
Po niecałych ~30 sekundach było jasne: @cto nie daje rady z reżyserią. To technolog - myśli integracjami, prostotą, bezpieczeństwem, nie łukiem dramaturgicznym, archetypem czy kompozycją kadru. Nie jego rola. Nie udawał, że umie.
Z tej porażki wyszła konkretna decyzja: kreacji nie poprowadzi technolog. Trzeba zaprojektować osobną rolę - i zrobić to porządnie, na bazie researchu, nie na czuja.
Dopiero po tej porażce ruszył wielomodelowy deep research (sekcja 04), a na jego bazie powstał dedykowany asystent kreatywny @cco (sekcja 05). Kolejność była: próba, porażka @cto, research, @cco. Nie odwrotnie.
To nie jest historia, którą trzeba chować. Technolog nie zastąpi reżysera - i lepiej, że wyszło to w 30 sekund niż po trzech dniach spalonych kredytów. @cto dalej robił swoją robotę (środowisko, skrypty, porządek), a kreację przejął ktoś zbudowany pod kreację.
Najmocniejszy dowód tej historii nie jest na tej stronie - jest w samym filmie. Moment przejścia @cto -> @cco zostawił ślad w materiale: od tego punktu jakość wizualna ujęć wyraźnie rośnie. Pierwsze próby (jeszcze podejście techniczne) są płaskie i bez reżyserii. Po przejęciu kreacji przez @cco kadr zaczyna mieć kompozycję, ruch kamery i sens dramaturgiczny. Naszym zdaniem to widać na ekranie - tę granicę zostawiliśmy w teledysku celowo, oceńcie sami.
Najczęstszy błąd przy teledysku AI: generujesz ładne obrazki, a potem nie wchodzą w rytm. My zaczęliśmy od dźwięku.
Whisper z dokładnością do pojedynczego słowa (word-level timestamps). Wiedzieliśmy co do ułamka sekundy, kiedy pada które słowo - więc obraz mógł trafiać w tekst, nie obok.
Tempo 195 BPM, mocny akcent (downbeat) co ok. 1,23 s, struktura ok. 25 sekcji - od intro przez zwrotki, bridge, refren, interludium "ty ja", wyznanie, aż po apoteozę za outro.
Z tego powstała mapa audio - jedno źródło prawdy o timingu. Na nią zmapowaliśmy strukturę opowieści. Bez tej analizy każde ujęcie byłoby zgadywaniem, a montaż - loterią. To była fundamentalna decyzja, nie formalność.
Żeby nie było ogólników - oto fragment realnego outputu z pliku audio-map.md (Whisper small z word-level timestamps + librosa). Cała struktura to ~25 wykrytych sekcji utworu. Poniżej fragment tabeli z timestampami:
| Czas | Sekcja | Co się dzieje |
|---|---|---|
| 0:00-0:09 | Intro gitary | Tylko gitary, samotność, klimat - brak perkusji, brak wokalu |
| 0:09-0:28 | +Perkusja + "oooo" | Perkusja wchodzi, wokal samogłoskowy "oooo", energia rośnie |
| 0:34-0:43 | Zwrotka 1a | "Każdy mój krok, to walka z własnym cieniem / Każde niewinne słowo ma znaczenie" |
| 0:53-1:01 | Bridge 1a | "W moim sercu czyste dobro / W twojej głowie dzikie porno / Nie jesteś sam!" |
| 1:44-1:58 | Refren 1 wokal | "MAM, to co chcę MAM / to co chcę MAM! / WSZYSTKO JEST TAKIE PROSTE" |
| 2:08-2:15 | Zwrotka 2b | "Ogień nie zgaśnie nigdy, gdy wierzysz, że to Ty" |
| 2:39-3:07 | Interlude "ty ja" | "Ty ja, ty ja, ty ja..." + instrumental (28s) |
| 3:36-3:48 | Outro zwrotka b | "A Ty wciąż wstajesz, bo w Tobie ogień nigdy nie znikł" |
| 3:48-4:00 | ⭐ Wyznanie | "Wszystko jest proste wszystko jest jasne / Ufam swemu sercu bo jestem we właściwym miejscu" |
| 4:18-4:54 | Apoteoza + outro | "Wszystko jest proste, wszystko jest jasne" x10 - monomaniakalne, hipnotyczne (36s) |
Kolejność, żeby było uczciwie: najpierw powstał ogólny schemat i wizja - co to ma być, o czym, dokąd prowadzi. Dopiero potem dopracowywaliśmy ten szkielet różnymi modelami AI, które generowały opcje, warianty i kontrę. Modele nie wymyśliły teledysku - dociągnęły rzemiosło pod wizję, która już była.
Konkretnie: to samo zadanie - jak naprawdę robi się narracyjny teledysk z tekstu, od koncepcji po render AI - zadaliśmy pięciu niezależnym modelom AI. Każdy zwrócił osobny raport. Razem ok. 2200 KB analiz w pięciu plikach: frameworki konceptualizacji, łuk dramaturgiczny w 3-5 minut, mapowanie muzyki na obraz, aktualna mapa narzędzi AI video na maj 2026, checklisty i typowe błędy.
Mapa narzędzi AI video na maj 2026 (porównanie modeli pod kątem spójności postaci - wybór padł na Kling), zweryfikowany kanon teledysków z faktami produkcyjnymi, kontekst polski/punk.
7 frameworków konceptualizacji z tekstu, kompresja narracji w 4:54, mapowanie sekcji utworu na punkty zwrotne.
Najobszerniejszy - kompletny framework "od tekstu do storyboardu AI", workflow 8 kroków, librosa + onsety jako punkty cięcia, paleta pod tonację.
Dyscyplina budżetu renderów ($100/mies), inżynieria odwrotna procesu, worldbuilding = 50% sukcesu, anty-"Midjourney look".
Skalowalny skill DIY punk + duchowość, dobór frameworka (hybryda parallel + metaforyczny + kontrapunkt), prompty copy-paste.
Pięć perspektyw zderzonych ze sobą. To, co się powtarzało i potwierdzało, stało się fundamentem asystenta @cco.
Sekwencja, uczciwie: wizja i schemat -> dopracowanie pięcioma modelami -> synteza -> dopiero projekt roli @cco -> produkcja. @cco powstał 12.05.2026 jako Chief Creative Officer - hybryda podejść Rubina, Sagmeistera, Carsona, Kubricka i Devlin. To nie była improwizacja przy generatorze obrazków. To rola zaprojektowana na bazie odrobionej pracy.
Do projektu uruchomiliśmy dedykowanego asystenta AI - rolę kreatywną, którą nazwaliśmy @cco (Chief Creative Officer / Dyrektor Kreatywny), postawioną 12.05.2026 na bazie opisanego wyżej researchu.
To nie maszynka do obrazków. To rola, która myśli koncepcją - hybryda kilku podejść do tworzenia:
Zasada nadrzędna: powód i koncept przed egzekucją. Nigdy odwrotnie.
Michał (lider 4dziki) i AI tworzyli koncepcję razem. AI proponowało po trzy różne kierunki na każde ujęcie, człowiek wybierał, dopiero potem powstawał szczegółowy prompt. To partnerstwo, nie automat.
Zanim padł pierwszy prompt, padła decyzja o tym, czym ten teledysk w ogóle ma być. Nie "jak ma wyglądać" - "o czym jest i dokąd prowadzi". To była decyzja na samym starcie, nie ozdoba doklejona na końcu.
Dla 4dziki teledysk to zawsze fabuła z łukiem dramaturgicznym - nigdy zbiór ładnych statycznych ujęć ani ikonografia do podziwiania. Bohater, który gdzieś idzie, coś go zmienia, na końcu jest inny niż na początku. Obraz służy opowieści, nie odwrotnie. To nie estetyczna preferencja - to twardy warunek wejścia do projektu. Bez historii nie ma po co generować ani jednego kadru.
Poszliśmy w stronę polskiej baśni - słowiańskiej przypowieści. Powód był w samym utworze: "Wszystko jest proste" brzmi jak opowieść o drodze, o dorastaniu, o przejściu przez coś trudnego. Baśń pozwala mówić o rzeczach ciężkich obrazem i symbolem, a nie dosłownie. Walka z własnym cieniem, droga przez mrok, światło na końcu - to język baśni, nie reportażu. Forma sama się narzuciła, gdy słuchaliśmy tekstu.
Bohater to czarna kapturzysta sylwetka z płonącym magentowym sercem - celowo bez twarzy. To nie brak pomysłu, to sens: postać bez rysów jest duszą, everymanem, każdym z nas - może być Tobą. Brak twarzy daje dwie rzeczy naraz: uniwersalność (to nie historia konkretnego człowieka, tylko każdego) i spójność (jeden kanon postaci utrzymany od pierwszej do ostatniej klatki, bez dryfu między ujęciami). Sens i rzemiosło spotkały się w jednej decyzji.
Świat opowieści budujemy z motywów słowiańskich. Każdy z nich nie jest dekoracją - ma funkcję w drodze bohatera (mapowanie na akty z mapy audio):
Cień, przeciwnik wewnętrzny. To z nim bohater walczy na ulicy - "walka z własnym cieniem". Wraca w akcie II, atakuje, bohater pada.
Przewodnik we mgle. Pojawia się w bridge'u "Nie jesteś sam" - "Uwierz mi, ja byłem TAM". Pomaga wstać po upadku.
Duch lasu. Bohater spotyka go na polanie w interludium "ty ja" - spotkanie z samym sobą. W apoteozie sam staje się Leszym.
Znak 4dziki wpleciony w mitologię. Dla fanów "to nasz znak", dla obcych - słowiański duch lasu. Dwa odczyty, jeden symbol.
Legendarny słowiański skarb. Cel całej drogi - pojawia się dopiero na samym końcu, po niego bohater idzie przez mrok. Wraca też w momencie, gdy bohater unosi się do góry po spotkaniu z dzikiem. W kwiat wpleciona jest szyszynka (epifiza) - owinięta jego płatkami. Szyszynka to symbol duchowego "trzeciego oka": wewnętrznego widzenia i intuicji. W słowiańsko-duchowym kluczu skarb to nie błyskotka - to wgląd.
Tonacja całego świata: magentowe iskry jak ognie świętojańskie, mgła między pniami, noc, w której paproć ma zakwitnąć.
To nie zgadywanie. Strukturę opowieści nałożyliśmy na realną mapę audio (sekcja 03) - timing aktów wynika z timingu utworu, nie z przeczucia:
Łuk prowadzi przez mrok i próby do apoteozy - pierwszej pełni koloru w całym filmie. A potem przychodzi meta-zwrot: okazuje się, że całą tę baśń ktoś maluje - autor, sam wokalista, w zwykłym pokoju. Prawdziwym skarbem nie jest magia ani kwiat paproci z legendy. Skarbem jest zwykłe życie - i to, że TY SAM jesteś jego kreatorem. Jak namalujesz, tak będzie. Bohater szuka magicznego artefaktu przez cały film, a finał mówi: artefaktu nie ma, jest pędzel w Twojej ręce.
To serce przekazu, nie ozdoba. Nie magia decyduje, co się wydarzy - decyduje ten, kto trzyma pędzel. Kwiat paproci, bies, leszy, cała słowiańska maszyneria - to były tylko obrazy, które ktoś namalował. Łapiesz to dopiero, gdy kamera wyjeżdża z rysunku.
To dosłowny sens tytułu i puenta całej konstrukcji. "Wszystko jest proste" nie jest hasłem doklejonym do ładnych ujęć - jest meta-zwrotem, do którego prowadziła każda scena. Forma jest treścią: cała baśniowa złożoność istnieje wyłącznie po to, żeby na końcu rozpłynąć się w czymś prostym. Wszystko JEST proste - to my to komplikujemy, dokładamy mrok, biesy i magiczne skarby do czegoś, co i tak było proste od początku. Dopiero kiedy ten sens był ustalony, ruszyła egzekucja - narzędzia, workflow, prompty. Nie odwrotnie.
Żadnego sekretu. Oto pełna lista narzędzi i czemu każde z nich służyło.
Dla KAŻDEGO ujęcia powtarzaliśmy tę samą pętlę. To ona robi różnicę między teledyskiem a losowym kolażem AI.
@cco daje trzy RÓŻNE logiki wizualne na to samo ujęcie - nie warianty tego samego, tylko realnie różne pomysły.
Decyzja należy do Michała. Bez wyboru nie ma promptu - to twarda zasada protokołu.
Rozpisany sekundowo: choreografia kamery (dystanse w metrach, nazwane pozycje, fazy ruchu), ścisła paleta barw (kody HEX), gęste warstwy ruchu, długa lista wykluczeń.
Ujęcie 5-15 s. Dłuższe tylko, gdy efekt potrzebuje powietrza.
ffmpeg wyciąga klatki. Ocena: koncept / widz / pamięć obrazu. Werdykt: zostaw albo regeneruj.
Ostatnia klatka zaakceptowanego ujęcia staje się pierwszą klatką kolejnego. Tak rodzi się ciągłość.
Żeby nie było ściemy, że "wpisaliśmy zdanie i wyszedł teledysk" - oto realny prompt z tej produkcji. Skrót, bo pełny jest dłuższy, ale widać gęstość: kamera rozpisana sekundowo, paleta w kodach HEX, długa lista wykluczeń.
FULL FRAME EDGE-TO-EDGE COMPOSITION. Image fills entire video frame corner to corner. NO border, NO frame. Seamless full-bleed. DOMINANT BACKGROUND: deep purple-black night sky (#2D1B4E) visible between tree canopy. Dark slavic forest interior with tall birches (brzozy) and pines. Volumetric bone-white fog (#E8D5B7) drifting between tree trunks. Magenta firefly lights scattered throughout forest like Kupala Night sparks. CHARACTER (BOHATER): Adult tall slim male hooded figure, 1.85m tall, lanky proportions. LOOSE FLOWING BLACK CLOAK reaching mid-calf with hood up. Hood interior PURE SOLID BLACK INK FILL, ZERO gradient, ONLY two HOT MAGENTA PINK #FF006E glowing eye dots. NO face, NO chin, NO mouth. Magenta heart glowing on chest through cloak. NO muscular body, NO tight costume, NO action figure look. ACTION SEQUENCE (5 seconds): - 0-1s: Bohater CHARGES forward fast into deep forest. Cloak whips dramatically behind him. Magenta heart pulsing bright. - 1-2s: Under his footsteps WAVES OF MAGENTA FERN FRONDS (paproc) BURST UPWARD in CHAIN REACTION around his path. - 2-3s: Bohater STOPS dramatically in forest clearing, heroic stance. Magenta heart pulses peak bright. - 3-4s: CAMERA RAPIDLY ORBITS around bohater. Firefly lights BURST from moss like Kupala Night sparks. Tree bark GLOWS magenta. - 4-5s: Camera settles medium-wide. Bohater surrounded by his magenta domain: glowing trees, fireflies, fern carpet. CAMERA: TWO-PART DYNAMIC MOVE. PART 1 (0-2s) RAPID TRACKING FORWARD, low angle. PART 2 (3-5s) RAPID ORBITAL ROTATION around bohater. STRICT PALETTE: pure black #0A0A0A, deep purple #2D1B4E, HOT MAGENTA PINK #FF006E, bone-white #E8D5B7, forest green #1A3A2A, warm brown #6B4A2A. NO orange, NO red, NO yellow, NO blue, NO sun. ABSOLUTELY AVOID: photorealistic, 3D, watercolor, paper texture, sepia, vignette, visible face inside hood, chin, nose, mouth, white skin, child proportions, chibi, muscular body, tight bodysuit, TEXT anywhere, signs, ANY PEOPLE besides bohater, creatures, animals, weapons, lightning, fire, daylight, sun, blue sky, city buildings.
Dwie rzeczy z tego promptu warto zauważyć. Po pierwsze: kamera rozpisana w czasie i przestrzeni (dwie fazy, niskie ujęcie, orbita) - nie "ładnie się rusza", tylko konkret. Po drugie: lista wykluczeń jest dłuższa niż opis sceny. Połowa roboty przy modelu wideo to mówienie mu, czego ma NIE robić - i znajomość słów, które blokuje moderacja modelu (część promptów trzeba było sanityzować, bo wcześniejsza wersja leciała w "horror", a Kling ją odrzucał).
Żeby nie było, że pokazujemy jeden wyjątkowo dopracowany. Poniżej dwa kolejne realne fragmenty z plików produkcyjnych - inne sceny, ta sama dyscyplina. Pierwszy pokazuje choreografię kamery w metrach (fizyczny Steadicam, nie "orbita"). Drugi - sanityzację słów blokowanych przez moderację Kling i wplecenie znaku zespołu (dzik) w narrację.
SCENE: Hand-drawn 2D cell-shaded cartoon animation. WIDE SHOT of hooded figure standing in narrow OLD POLISH TOWN STREET between two rows of 19th century KAMIENICE (polish townhouses, weathered stucco facades, dark windows with shutters, ornate cornices). Cobblestone street WET from rain, magenta reflections in puddles. AMBIENT MOTION LAYERS (background must feel alive without people): - COLD WIND blowing strongly down the street toward camera - 3 LAYERS OF FOG drifting at different speeds: thick low fog at ankle height (slow), medium fog at chest height (medium), wispy high fog near roofs (fast) - GAS STREETLAMPS on both walls FLICKERING at different rhythms - 2-3 BLACK RAVEN SILHOUETTES occasionally fly across frame ACTION SEQUENCE (5 seconds): - 0-1s: Wide shot FROM FRONT. Camera positioned far back in front of bohater (15m back, slight high angle). Bohater small, centered. - 1-2s: CAMERA SLOWLY DOLLIES IN toward bohater from front. Distance closes from 15m to 6m. - 2-3s: CAMERA REACHES MEDIUM CLOSE-UP from front (3m). Bohater's chest GLOWS BRIGHTLY in magenta aura. - 3-4s: CAMERA ARCS AROUND BOHATER - travels in smooth half-circle from front view, sweeping to his RIGHT SIDE then BEHIND him. - 4-5s: CAMERA FINISHES ARC behind bohater (we see his BACK, looking past him down the street). Bohater silhouetted. CAMERA: DYNAMIC ARC SHOT (orbital push-in). Starts FAR back in front (15m, slight high angle), then SLOWLY DOLLIES IN while simultaneously ARCING around him in a smooth half-circle. Like a Steadicam orbital push-in. Subject stays centered throughout.
CHARACTER 2 - DUCHOWY DZIK (this is the KEY new element): A MASSIVE SLAVIC SPIRIT WILD BOAR (dzik), approximately 1.5 meters tall at shoulder (mythologically large, larger than normal boar). SOLID DEEP BLACK silhouette with thick black ink outlines. Powerful arched back with raised spine ridge. Long snout. The dzik has GLOWING MAGENTA FEATURES: - TWO LONG CURVED TUSKS glowing bright HOT MAGENTA PINK #FF006E - TWO EYES glowing the same HOT MAGENTA PINK #FF006E as bohater's eyes (visual connection - they share the same energy) - Magenta moss and small ferns growing in his neck fur The dzik stands STILL and NOBLE - not aggressive, a MYSTICAL TOTEM appearing to bohater. This is a spiritual encounter, not a confrontation. ACTION SEQUENCE (5 seconds): - 1-2s: DUCHOWY DZIK BURSTS out of thick fog at high speed. - 2-3s: Dzik RUNS IN A CIRCLE around bohater (Kupala ritual circular motion). CAMERA ORBITS following the dzik's run. - 4-5s: MAGENTA ENERGY BRIDGE forms between bohater's heart and dzik's tusks - a glowing magenta connection beam. Their heart and tusks pulse in PERFECT SYNC. Sacred slavic recognition. ABSOLUTELY AVOID: ... dzik attacking, dzik charging aggressively, dzik with blood, dzik wounded, hunting scene, weapons, spears, hunters, pigs (this is wild boar not pig), domestic farm pig, friendly cute pig, realistic photograph of boar.
Wniosek z trzech promptów razem: to nie "wpisz zdanie". To rozpisany dokument na każde 5 sekund - kamera w metrach, paleta w kodach HEX, lista wykluczeń często dłuższa od opisu sceny i świadomy dobór słów, których nie zablokuje moderacja modelu. Każde z 66 ujęć miało taki własny plik.
Końcówka filmu, realizowana 17.05, domyka morał i robi świadomy zwrot. To nie ciąg ładnych ujęć - to opowieść, która ma puentę.
Magentowe serce bohatera rozpala martwą równinę. Płomień, który tlił się cały film, w końcu wybucha.
Otoczenie zbiera się wokół bohatera w bramę z linii światła. Chaos zaczyna mieć sens.
Pierwszy raz w całym filmie uwolniona pełnia barw. Świadomy payoff po całym teledysku powściągniętej palety magenta. Czekaliśmy z tym do końca celowo.
Odkrywamy, że całą tę historię maluje człowiek - sam wokalista - w zwykłym pokoju. Klamra: od abstrakcji do realnego życia.
Łatwo to przeoczyć, więc mówimy wprost: postać rysownika - autora, który maluje całą baśń - też jest animacją, nie wklejonym zdjęciem. Powstała ZE ZDJĘĆ Michała przez mechanizm Bind Elements w Kling: realne fotografie wokalisty poszły do modelu jako kotwica tożsamości, a model wygenerował narysowaną w stylu filmu wersję jego twarzy - ta sama kreska, ten sam cell-shading co reszta teledysku. To nie jest foto-collage ani zdjęcie doklejone do animacji. To człowiek przepuszczony przez tę samą estetykę co bohater bez twarzy - spójność trzymana nawet w momencie, w którym "wychodzimy z baśni do prawdziwego życia". Reveal działa właśnie dlatego, że nic nie wypada ze stylu.
Finał: kwiat paproci - słowiański skarb zapowiadany przez cały film - leży na parapecie w zwykłym mieszkaniu. Autor zamyka księgę-opowieść. Wszystko jest proste.
To nie rendery testowe - to ujęcia z gotowego teledysku, w autorskim stylu utrzymanym od pierwszej do ostatniej klatki:
Czarna sylwetka bez twarzy, magentowe serce na piersi. Świadomy wybór z researchu - postać bez rysów nie dryfuje między ujęciami.
Najciemniej przed świtem. Pusta równina, unoszące się skały, magentowe żyły rozchodzą się spod stóp bohatera.
Pełnia koloru wreszcie uwolniona po całym filmie powściągniętej palety magenta. Payoff trzymany do końca celowo.
Kamera wychodzi z rysunku - całą historię maluje sam wokalista (irokez, koszulka z dzikiem). Też animacja: twarz narysowana ze zdjęć Michała przez Bind Elements, nie wklejone foto.
Kwiat paproci - słowiański skarb z całego filmu - na parapecie zwykłego mieszkania. Klamra: od mitu do codzienności.
Bez przechwałek i bez ogólników - to są policzone, realne liczby z folderu roboczego. AI nie skróciło tego do popołudnia.
To pierwsze pytanie, jakie dostajemy: "ile kredytów zjadł Kling?", "ile Claude?", "ile to w ogóle kosztowało?". Więc zero owijania w bawełnę - konkret w dolarach. Podajemy orientacyjnie, bo to subskrypcje miesięczne dzielone na wiele rzeczy, nie kwoty co do centa.
Sama produkcja powstała na dwóch płatnych narzędziach: Kling do generowania wideo i Claude jako asystent reżyserski. Oba jako miesięczne subskrypcje, włączone w okresie produkcji. (Wcześniejszy deep research z sekcji 04 korzystał z kilku modeli AI, ale na kontach, których i tak używamy na co dzień - nie doliczamy ich jako osobny koszt tego teledysku.)
Najpierw plan Kling Pro - 32,56 USD/mies (3000 kredytów). Wykorzystany w całości - kredyty się skończyły w trakcie produkcji. Było jej więcej, niż zakładaliśmy, więc trzeba było przejść wyżej.
Plan obecny: Kling Premier - 80,96 USD/mies (8000 kredytów). Z tego planu zeszło dotąd około 2000 kredytów - przy czym to nie był tylko ten teledysk: część poszła na zupełnie inne rzeczy zespołu (m.in. klip "Poniedziałek" i inne zabawy z generowaniem), niezwiązane z tą produkcją. Po tym teledysku został spory zapas kredytów (z 8000 zeszło około 2000) - i ten zapas idzie na bieżąco na kolejne klipy. Czyli sam teledysk wyszedł naprawdę tanio.
| Kling Pro (3000 kr.) - wykorzystany w całości | 32,56 USD |
| Kling Premier (8000 kr.) - ~2000 kr. zużyte (część na inne projekty, m.in. "Poniedziałek") | 80,96 USD |
Ważne, żeby nie zawyżać: z planu Premier na ten teledysk zeszła tylko część (większość kredytów została i idzie na kolejne produkcje). Realny koszt TEGO teledysku jest więc dużo niższy niż suma obu planów - duża część tych pieniędzy to inwestycja w przyszłe projekty zespołu, nie koszt tego jednego klipu. Dodatkowo część rzeczy (miniaturkę, montaż-recap) zrobiliśmy bez generacji, z gotowych klatek z udanych ujęć - żeby nie palić kredytów.
Claude (asystent reżyserski @cco) to narzędzie, z którego Michał korzysta na co dzień do wielu różnych rzeczy - nie tylko tego teledysku. Dlatego udziału tego konkretnego projektu nie da się twardo wydzielić. Uczciwie: tego udziału nie da się twardo wydzielić - to ta sama subskrypcja, z której Michał korzysta codziennie do wielu rzeczy. Nie podajemy liczby tokenów ani kwoty „na oko", bo wpisywanie tu zmyślonej liczby byłoby ściemą, a o ściemie ta strona jest właśnie po to, żeby jej nie było.
Claude (przez Claude Code) pełnił rolę środowiska i asystenta reżyserskiego: koncepcja i big idea, układanie workflow, analiza audio (tempo, struktura, timing fraz), pisanie precyzyjnych promptów do Kling. Bez tej warstwy Kling dostawałby krótkie, słabe polecenia - a krótki prompt to słaba kreska i spalone kredyty.
Rząd kosztów narzędzi w okresie produkcji to ok. 113 USD samego Klinga (Pro 32,56 + Premier 80,96) plus udział wspólnej subskrypcji Claude, którego nie da się twardo wydzielić - łącznie rząd stu kilkudziesięciu USD. Przy czym większość kredytów Kling została na przyszłe produkcje, więc realny koszt tego jednego teledysku jest istotnie niższy.
Klasyczny narracyjny teledysk z ekipą, sprzętem i postprodukcją to realnie rząd dziesiątek tysięcy złotych. Tutaj rząd wielkości to ok. 130 USD subskrypcji plus czas i reżyseria człowieka - czyli ułamek kosztu klasycznej produkcji. Podajemy rzędy wielkości, nie twardą kwotę w złotówkach, bo to przeliczenia z dolarów i subskrypcji dzielonych na wiele rzeczy.
Wniosek: bariera wejścia do narracyjnego teledysku spadła z "potrzebujesz wytwórni" do "potrzebujesz dwóch subskrypcji i pomysłu na historię". Reszta to praca.
Próba użycia istniejącego @cto do kreacji - porażka w ~30 s (technolog, nie reżyser). Wniosek: potrzebna osobna rola. Ruszył wielomodelowy deep research (5 modeli AI, 5 plików, ok. 2200 KB). Analiza utworu (Whisper + librosa), mapa audio. @cto dalej robi swoje: środowisko, skrypty, porządek.
Na bazie researchu - projekt i powołanie roli @cco. Pierwsza fala ujęć: bridge, refren, sekwencje 5 s. Wypracowanie przepisu na ruch kamery (Steadicam, metry, pozycje).
Dalsza produkcja sceny po scenie. Ugruntowanie protokołu: 3 motywy, wybór, prompt.
Sekwencja "ty ja": pool, tunel, pęknięcie lustra, kolos. Domknięcie zwrotki 2 (szary bliźniak). Master-prompty.
Sesja finałowa: domknięcie morału ("ogień nigdy nie znikł"), apoteoza, zwrot kamery z rysunku, zakończenie z kwiatem paproci, miniaturka.
To była pierwsza przymiarka Michała do pełnego narracyjnego teledysku AI. Krzywa uczenia stroma, dużo wniosków zebranych po drodze. Następny pójdzie znacznie szybciej i taniej - bo są już gotowe przepisy, bind postaci ustawiony od startu i spory zapas kredytów na koncie.
Pierwsze podejście do pełnego teledysku AI. Następny pójdzie znacznie szybciej i taniej: gotowe przepisy, bind postaci od startu, spory zapas kredytów. Najdroższy jest zawsze pierwszy raz.
Ogólnik "powolny ruch" = model robi statykę. Trzeba podać metry, fazy ruchu i co dzieje się w której sekundzie. Konkret, nie nastrój.
Kling gubi czarną sylwetkę na czarnym tle. Miniaturka nie powstała z generacji - wzięliśmy gotową, mocną klatkę z samego filmu. Wiedza, kiedy odpuścić AI, jest częścią rzemiosła.
Lock postaci na poziomie modelu rozwiązuje największy problem teledysku AI: ta sama postać i twarz w każdym ujęciu. Bez tego bohater "dryfuje".
Ostatnia klatka jednego ujęcia = pierwsza klatka następnego. Tak buduje się płynne przejścia zamiast losowych cięć.
3 różne motywy koncepcyjne -> wybór człowieka -> dopiero szczegółowy prompt. Nigdy odwrotnie. Wybór jest pracą człowieka, nie modelu.
AI nie może wybiegać do przodu. Słuchaj dokładnie, na której frazie jesteś. Wyścig = chaos i spalone kredyty.
Część słów blokuje filtr modelu (np. "horror"). Prompty trzeba sanityzować - znać synonimy, które przechodzą.
Konkretny fizyczny aktor + konkretna akcja + choreografia kamery. Abstrakcja spłaszcza obraz - model nie ma czego "zagrać".
Próba poprowadzenia kreacji przez @cto padła w ~30 sekund. Dlatego powstał @cco. Dobre narzędzie w złej roli to nadal zła rola.
To dziesiątki iteracji, krytyki i wyborów. Wartość leży w reżyserii, krytyce i decyzji - nie w samej generacji. AI trzyma wiedzę warsztatową, tempo i konsekwencję. Człowiek trzyma wizję, smak i decyzję. Ani AI samo, ani człowiek sam nie zrobiłby tego tak. To narzędzie, nie zastępstwo.
Niezależny zespół punkowy bez budżetu na klasyczną produkcję zrobił pełny narracyjny teledysk z AI. Nie dlatego, że byliśmy pierwsi - tego nie twierdzimy i nie da się tego uczciwie zweryfikować. Dlatego, że spróbowaliśmy i rozpisaliśmy to tak, żebyś mógł zrobić to u siebie.
To nie "AI zastąpiło artystów". To zespół, który wziął nowe narzędzie i potraktował je jak instrument - tak jak punk zawsze robił z tym, co miał pod ręką. Kraft plus punk. DIY, tylko w 2026. Masz historię do opowiedzenia? To nie kwestia budżetu wytwórni. To kwestia pomysłu, dwóch subskrypcji i pracy.
Czy można było lepiej? Pewnie tak. Czy można poprawiać niedoróbki? Można - widzimy je sami. Ale my lepimy dalej. To DIY i punk: nie cyzelujemy jednego klipu w nieskończoność, robimy i idziemy do następnego. Niedoskonałość nie jest tu wpadką - jest częścią metody. Lepiej skończony teledysk z chropowatością niż wieczny szlif, który nigdy nie wychodzi.
Pytania o proces? Jesteś z mediów, branży, albo po prostu ciekawy? Pisz wprost.
Masz pytania? Pisz :) 4dziki@gmail.com