„Než naučíme naše modely generovat hudbu, musíme je nejprve naučit tancovat.“
Umělá inteligence je jedním z nejvíce rezonujících buzzwordů současného technologického pokroku, není proto divu, že ani svět algoritmické kompozice nezůstal pozadu. Využití AI v rámci kulturních oblastí ovšem kromě nadšení budí i rozpaky. Je vůbec nahrazení procesu kreativity a znalosti kulturního a společenského pozadí možné? Pojďme se blíže podívat na netradiční spojení moderních technologií a hudební kompozice.
Věděli jste, že se historie algoritmické kompozice datuje až do 18. století? Musikalisches Würfelspiel, populární hra, jež se rozšířila do celé západní Evropy, využívá hod kostkou ke generování skladeb z předem sestavených možností. V případě Mozartova valčíku nabízí jen těžko představitelných 1116 unikátních, leč často podobných, kombinací. Tento jednoduchý „algoritmus“, který si můžete s menší znalostí němčiny vyzkoušet i ve svém prohlížeči, odstartoval celé odvětví hudební kompozice, jež ovšem nabylo na významu až s nástupem výpočetní techniky.
Algoritmická kompozice prošla za uplynulá léta mnohými změnami. Zatímco dřívější příklady spoléhaly na čistě náhodné jevy, dnešní programy dokáží generovat naprosto unikátní kombinace. Rozvoj umělé inteligence v 50. letech minulého století umožnil přehodnocení snad všech existujících oborů, na kterých se lidstvo podílelo. Kromě filozofických otázek bytí, myšlení a existence ale přišla řeč i na možné tvůrčí využití těchto modelů. Zlomovým bodem se stal rok 1957, kdy dali profesoři z univerzity v Illinois Lejaren Hiller a Leonard Issacson vzniknout kompozici Illiac Suite for String Quartet – první skladbě, kterou můžeme označit jako „computer-composed“. Ačkoliv se jejich výsledné dílo v mnohém liší od dnešních modelů, užívá metodu zvanou Markovovy řetězce: jednoduché stavové automaty, jež vychází z pravděpodobnostních přechodů. Právě ty jsou jedním z předchůdců dnešních hluboko se učících architektur.
Pokrok v umělé inteligenci ovšem v průběhu následujících let stagnoval. To bylo zčásti zaviněno rozvojem symbolické umělé inteligence. Allen Newell a Herbert A. Simon v roce 1976 předložili teorií, že dostatečným předpokladem obecné umělé inteligence je fyzický symbolický systém, na jehož bází pracuje mimo jiné i Turingův stroj, jež je schopen definovat problémy pomocí abecedy a stavů. Symbolická umělá inteligence byla dominantním přístupem přibližně do konce 80. let minulého století.
Ve stínu symbolického paradigmatu se rozvíjel konekcionistický přístup, který hledal podnět mimo svět techniky. Z tohoto biologicky inspirovaného modelu, jež místo symbolů spoléhá na distribuované zpracování dat, vzešly dnešní neuronové sítě. Hlavní podstatou konekcionistických modelů je ukládání informací nikoliv do samotných neuronů, nýbrž do hodnot vah mezi nimi. Ty se podobají synapsím, jež spojují neurony v naší nervové tkáni. Učením se tyto spoje posilují, zatímco v opačném případě dochází k oslabování. K adaptaci synaptických vah slouží metoda zvaná optimalizace, pro kterou se mezi laiky vžil název učení. V našem případě se jedná o optimalizaci ztrátové funkce, jež reprezentuje pravděpodobnostní distribuci – váhy mezi neurony – a tím i všechna možná řešení. I přes odklon od symbolického paradigmatu jsou symboly opodstatněnou a nutnou součástí umělé inteligence, avšak odlišně, než mohlo být původně zamýšleno.
Abychom mohli v textu o algoritmické kompozici pokračovat, musíme nejdříve akceptovat fakt, že současné modely na bázi neuronových sítí nerozumějí tomu, co pomocí matematických operací vytváří. Tyto modely vidí vstupní transkripci nikoli jako hudební dílo, nýbrž jako set symbolů, tokenů či proměnných. Pokud bychom chtěli uvažovat nad modelem, který plně pochopí podstatu hudební kompozice, museli bychom se ohlédnout směrem k vývoji kognitivních architektur. Jak vtipně, leč pravdivě poznamenal Bob L. Sturm, autor programu folk-rnn, jež využívá neuronovou síť k vytváření transkripce tradiční irské hudby, „než naučíme naše modely generovat hudbu, musíme je nejprve naučit tancovat.“ Je proto nutné zmínit, že všechny aktuální aplikace neuronových sítí spadají pod úzkou umělou inteligenci čili jsou schopny řešit pouze ty úlohy, pro které byly stvořeny.
Primární motivací pro užití neuronových sítí ke generování hudebních partitur je obecnost modelu. Na rozdíl od architektur založených na pravidlech se může systém díky různým vstupním datům přizpůsobit libovolnému stylu či žánru. Samotné generování v závislosti na získaných korelacích probíhá buď pomoci predikce (predikování následující noty) nebo klasifikace (rozpoznání akordu, který odpovídá melodii). Tyto modely proto využíváme tam, kde je požadovaná aplikace příliš komplexní na to, aby byla popsána analytickými formulemi nebo hrubou silou. Přímou aplikací těchto metod ke generování hudebního obsahu ovšem narážíme na jisté limity.
Určitou slabou stránkou většiny projektů využívající umělou inteligenci pro generování hudební transkripce je absence dříve očekávané autonomnosti. Ačkoliv jsou tyto modely schopny generovat nevšední melodie či rytmiky, jedná se stále o pouhé generování hudebního přepisu, jež počítá s širokým lidským vstupem. Tato skutečnost samozřejmě nečiní tyto modely méně zajímavými, je nutné ovšem brát v potaz zapojení hudebníků nejen v rámci editačních prací, ale i samotného zhudebnění vzniklé transkripce.
S podobným principem pracuje i dynamicky se rozvíjející start-up AIVA, jenž nedávno učaroval nejednoho posluchače svou interpretací nedokončeného Dvořákova díla s názvem From The Future World (referovali jsme v textu Hudba jako dekorace byznysu). Ačkoliv se společnost spíše vyhýbá zveřejňování detailů týkající se vývoje, zakladatel Pierre Barreau během své přednášky v rámci konference Globant zmínil, že pro predikční schopnost využívá techniku sekvenčního modelování a rozpoznávání vzorů z učící množiny, která obsahuje závratný počet 30 000 skladeb. Pro snadnější pochopení můžeme zmínit, že AIVA pracuje na bázi takřka identických metod, jež užíváme i u prediktivního zadávání textu, s tím rozdílem, že namísto jazykového korpusu jsou datovým tokenům přiřazeny jednotlivé noty.
AIVA není jediný projekt, který profituje z technologického pokroku posledních let a dostupnosti velkých dat. Technologičtí giganti, jako například Google či IBM, stojí za neméně úspěšnými projekty Magenta, potažmo WatsonBeat. Zatímco některé aplikace se zaměřují na kompoziční stránku díla a generují pouze samotnou transkripci, kalifornská nezisková organizace OpenAI se letos v dubnu pochlubila svým nejnovějším projektem Jukebox, jenž místo symbolické reprezentace zpracovává přímo audio stopy v silně komprimovaném formátu WAV, navíc analyzuje i texty samotných písní z databáze LyricWiki. Díky jen těžko uvěřitelné tréninkové množině o velikosti 1,2 milionů písní tak „hudební generátor“ dokáže vytvářet působivé imitace Franka Sinatry, Katy Perry či Kanyeho Westa.
Ačkoliv je Jukebox naprostým unikátem, který dbá na odlišný přístup a odmítá pouhou znalostní reprezentaci hudebních děl, i zde narážíme na mnohá omezení, jež brání širšímu komerčnímu užití. I kdybychom chtěli pominout neuzavřenou otázku autorských práv, jež aplikace na bází umělé inteligence od počátku provází, současné modely mimo jiné zápasí s dlouhými sekvencemi – čím delší kompozice je, tím méně dodržuje požadované estetické a kreativní vlastnosti.
Přestože většina současných projektů namísto jednoduchého Markovova řetězce užívá mechanismy pro zachycení dlouhodobých závislostí, stále nás nejspíše čeká náročná cesta ke skutečně kreativním modelům, jež nebudou pouhou zajímavostí akademického světa. Ačkoliv nevíme, zdali nás čeká dominance znalostní reprezentace, zpracování audiosignálu nebo kombinace obou metod, jedno je jisté: už nyní operuje trh „kreativní“ AI s milionovými obraty. Prozatím je ovšem nástup těchto aplikací pozvolný, přičemž komerční využití nachází spíše v podkresové hudbě či reklamních jinglech. Příklad startupu AIVA ovšem inspiruje další společnosti, aby se nebály zaměřit na širší publikum.