Hur skapar jag AI-genererad konst?

mannen tar foto med sin telefon.

Tilläggsanmärkning 1/2024: Utvecklingstakten för generativa AI-applikationer har varit extremt snabb under de senaste åren, vänligen och beakta publiceringsdatumet för denna artikel. Artikeln kan innehålla mycket föråldrad information.

Här finns några korta anvisningar för hur olika AI-konsttjänster används. Internet börjar vara ganska fylld med dylika tjänster, men jag har försökt välja de som i mitt tycke är värda att bekanta sig närmare med. Anvisningarna är ganska generella, men säkert tillräckliga för att komma i gång. Mer anvisningar hittas på tjänsternas webbplatser på engelska. Vid behov kan Verke ordna utbildning i hur AI-konst kan utnyttjas i konstfostran.

Vad grundar sig allt på?

Mycket förenklat fungerar AI-konstgeneratorer som inverterat datorseende. Datorseende är en slags snäv artificiell intelligens som kan identifiera olika saker som finns i en bild. För varje skild sak som ska identifieras måste den artificiella intelligensen tränas med hundratals eller tusentals bilder, som används för att skapa en mall som används av artificiell intelligens för att ta reda på om saken förekommer i bilden eller inte. I text-till-bild-generatorer har den här metoden inverterats.

Den artificiella intelligensen ges istället en bild av brus och en textparameter som säger vad som borde synas i bilden. Efteråt börjar två olika modeller bearbeta bilden. En modell är en genererande modell, som lager efter lager lägger till olika allt starkare drag på bilden. Den andra modellen kontrollerar bilden och berättar för den andra modellen om den lyckats skapa något som kan identifieras. Utgående från feedbacken försöker den andra modellen förbättra det den genererat den föregående gången. En sådan runda av generering-kontroll kallas för en iteration. Ju fler iterationer bilden får, desto noggrannare bilder kan den artificiella intelligensen skapa. Nu har man lyckats utveckla dessa modeller så långt att det börjar vara möjligt att generera bilder redan på kraftiga hemdatorer, och kvaliteten på bilderna börjar närma sig fotografier. 

I många artificiella intelligenser kan man mata in ett färdigt foto istället för brusbilden, som den artificiella intelligensen sedan börjar bearbeta. Man kan ändra på tyngden som den inmatade bilden har, vilket gör det möjligt att till exempel använda ett skarpt fotografi som små detaljer lagts till på, eller alternativt ett verk där allt som blivit kvar är liknande färgtoner. 

För brusbilden används ofta också termen ”seed”, eller frö. Varje brusbild har ett eget ID, som använts för att generera det. Om en bild till exempel lyckas särskilt väl med ansikten, lönar det sig att spara bildens ”seed”, då den senare kan användas på nytt för att generera porträtt.

NightCafé är en av de lättaste appar att börja med. Med tjänsten kan man dagligen generera 5 bilder gratis.

Nightcafé

https://nightcafe.studio/ 

Nightcafé erbjuder varje dag fem gratispolletter åt registrerade användare. Polletterna kan användas för att skapa bilder. En bild med standardinställningar kostar en pollett. Om man vill ha mer skarphet eller om man vill ha en större bild, kostar den mer.

Med Nightcafé är det lätt att börja. Välj på tjänstens framsida ”Start creating”. På nästa sida kan du välja den stil du vill ha. Av dessa kan jag rekommendera Stable-versionen, som låter dig komma närmast fotokvalitet. På sidan som öppnas, skriv in i ”Your text prompt”-fältet din text, och tryck sedan på knappen ”Create” i sidans nedre kant. Det tar sidan en liten stund att generera en bild. 

Vad är en bra textparameter

Textparametern är det som gör användningen av text-till-bild-generatorerna till konst. Den inmatade texten, ofta kallad ”prompt”, kan tills vidare bara skrivas på engelska. Man kan dela in textparametern i några olika delar. Först kommer det beskrivande innehållet. Innehållet ska beskrivas väldigt noggrant för att undvika missförstånd, eftersom den artificiella intelligensen inte tolkar något utan fungerar med absolut information. Undvik att skriva saker i till exempel plural, eftersom artificiell intelligens inte kan besluta hur många objekt den borde rita. Skriv alltså inte “Stormtroopers fighting with wookies”, utan var mer precis: “Two stormtroopers fighting with three wookies”. Artificiell intelligens är inte kreativ, så man måste skriva in vilken slags stil bilden borde ha. Man kan använda en konstnär eller en stilinriktning som parameter, till exempel en expert på sci-fi konst, genom att skriva ”by Simon Stålenhag”. Dessutom kan vi berätta något om den omgivande världen genom att lägga till parametrar såsom ”Star Wars” eller ”sci-fi”. Det lönar sig att i lugn och ro testa på olika parametrar. Försök vara så noggrann som möjligt. Det lönar sig också att i textparametrarna beskriva vilka vapen används för striden och vilken tid på dygnet/året det handlar om. Under knappen ”modifiers” som finns under textfältet öppnas en meny där du kan välja olika variabler, om det är svårt för dig att komma på dina egna.

Artificiell intelligens skapar ibland underliga associationer ur de textparametrar som matats in. I den här bilden om framtiden för sociala media tolkades konceptet framtid med att spå i en kristallkula.

Midjourney

http://midjourney.com

Midjourney är en kommersiell artificiell intelligens som används för konstproduktion. Vad beträffar konstproduktion är den här appen nästan på samma nivå som Dall-E 2, i vissa aspekter är den till och med bättre. Den är mycket lätt att använda, vilket gör den utmärkt för nybörjare. Midjourney är nu i öppen beta-testningsfasen. Om man vill ha inloggningsuppgifter för testning kan man få dem via Midjourneys webbplats. Olikt andra appar som använder artificiell intelligens fungerar den här inte genom en webbläsare, utan som en Discord-bot (botten fungerar också i Verkes Discord). För att använda den behöver du alltså ett personligt Discord-konto. En nybörjare vidareförmedlas till en instruktionssida på Midjourneys Discord-server. Läs anvisningarna omsorgsfullt. Varje ny användare ges en egen kanal som de bör använda. Botten ges parametrar genom att skriva: /imagine prompt: ”skriv din text här”.

När du skriver in din ’prompt’, observera följande saker:

  • du kan använda vad som helst för bild som parameter genom att kopiera dess adress till först
  • efter länken kommer de egentliga textparametrarna: ”Two stormtroopers fighting with three wookies by Simon Stålenhag”
  • om du vill lägga till särskilda villkor i bilden kan du skriva in dem efter ”::” så här: “Two stormtroopers fighting with three wookies by Simon Stålenhag scifi :: On the moon of endor”
  • du kan också lägga till andra villkor för bilden i det här skedet, såsom photorealistic, monochrome, vivid eller cinematic
  • Midjourney skapar automatiskt fyrkanter av bilderna med bildformatet 1:1. Man kan ändra på bildens format genom att i slutet av texten skriva in –ar och önskat bildformat, t.ex. –ar 4:3 eller –9:16. Om du vill skapa en FullHD-bild kan du direkt skriva -wallpaper.
  • Om du vill vara säker på att Midjourney förstår vad du vill ha kan du använda parametern ”–no” för att skapa begränsningar, till exempel –no ewoks eller –no jedi
  • Med ”–q”-parametern kan du bestämma hur mycket tid Midjourney använder för att producera bilden. Standardvärdet är 1. Genom att använda värdet 0.5 blir bilden klar dubbelt så snabbt. På motsvarande vis med värdet 2 använder Midjourney dubbelt så länge på att skapa bilden. Detta förbrukar för din del resurser för två bilders del. Även om q-parametern kommer från ordet quality (kvalitet) har det inte alltid något att göra med kvalitet. Att använda längre tid på att skapa bilden kan också göra bilden mer rörig eller underlig. I många anvisningar träffar man på tipset ”Don’t overcook”, alltså koka inte för länge.
  • Med ”–s”-parametern fastställs hur kreativ den artificiella intelligensen får vara med uppgiften som getts. Standardvärdet här är 2500. Genom att öka på värdet försöker Midjourney skapa fler detaljer i bilden och föra in element som hittas i motsvarande bilder. Till exempel med solrosor försöker den kanske skapa en vas och ett bord om värdet är tillräckligt högt. Maximivärdet är 50000. I det här skedet börjar saker och ting redan bli ganska förvirrande, men det kan också leda till helt roligt slumpresultat.

Botten ger dig 4 alternativ till bilder. Efteråt ska du välja vilken av bilderna du vill göra en större version av genom att klicka på U-tecknet (Upscale) under bilden. Klicka på V-tecknet (Variations) om du vill se fler variationer av samma bild.

Midjourney börjar alltid med att skapa 4 skilda bilder av varje inmatning, varav användaren kan välja den bästa för vidare behandling.

Du kan spara bilden genom att klicka på bilden och sedan klicka på höger musknapp. Välj i menyn ”Spara bild”.

En inmatningsgenerator har skapats för Midjourney. Med den kan du lätt utnyttja tjänstens diverse egenskaper som en del av din parameter. https://www.thedreamingstate.com/portfolio/art/prompter 

Midjourney kan testas gratis ett par gånger, så det lönar sig att först öva på att skriva parametrar med gratisversionen. Den betalda versionen kostar 12€/månad.

Disco Diffusion fungerar på Googles Colab-plattform och kan till en början verka ganska komplicerad. Användaren behöver dock inte till att börja med bry sig om mer än ett par olika inställningar.

Disco Diffusion

https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb 

Disco Diffusion är ett slags Frankensteins monster vad beträffar de olika text-till-bild-generatorerna. Den fungerar på Google Colaboratory, eller Colab-plattformen, som grundar sig på öppen källkod och där man kan koda artificiell intelligens med Python. Program som skapats på den här plattformen kallas notebooks. Plattformen har skapats för gemensam kodning och med hjälp av den kan man utnyttja den höga prestandan hos Googles grafikprocessorer (GPU = graphics processing unit). I Disco Diffusion har man kombinerat olika artificiella intelligenser som grundar sig på öppen källkod och som fungerar som text-till-bild-generatorer. Det finns många motsvarande notebooks, och de utvecklas hela tiden i och med att användarna kombinerar sina egna versioner och förbättrar varandras kod.

Disco Diffusion ser till en början mycket förvirrande ut, men man behöver bara ställa in några saker för att börja. 

  1. Klicka här för att komma till Disco Diffusion version 5.61, och logga in med ditt Google-konto i det övre högra hörnet.
  2. Bli inte skrämd av det förvirrande gränssnittet. Du behöver inte kunna koda alls.
  3. Skrolla ner längs sidan till punkt 3, ”Settings”.
  4. Disco Diffusion sparar automatiskt bilden som skapats i Google Drive. I punkten ”Batch name” kan du skriva namnet på mappen du vill spara bilderna du genererar i.
  5. Skrolla neråt tills du kommer till punkten ”Prompt”. Hitta punkten ”A beautiful painting of a singular lighthouse…” i texten, och skriv istället din eget text. 
  6. I punkt 4. ”Diffuse” ställ in ”Batch size” till punkt 3. Här fastställer du hur många olika variationer av bilden skapas. (”Display rate” bestämmer efter hur många iterationer den synliga bilden uppdateras.)
  7. I Create a video-punkten, lägg ett kryss i rutan: ”skip_video_run_for_all”. Man kan också skapa videon med Disco Diffusion, men det här kräver mycket övning och mycket processortid. Jag rekommenderar att du först övar på att skriva bra parametrar innan du börjar skapa en video.
  8. Kör programmet genom att i menyn ”Runtime” ovan välja ”Run all”.
  9. Programmet ber om tillstånd att logga in i Google Drive och frågar om du verkligen vill köra ett program som kräver stora mängder processorresurser. Svara ja.
  10. Vänta och se hur bilden utvecklas.

Google Colaboratory erbjuder sina användare en begränsad mängd processortid per dygn. Man kan också skaffa en betalversion av appen, vilket ger användaren oändligt med användartid och rätten att använda de bästa grafikprocessorerna. Allt som användaren behöver är ett eget Google-konto, som nästan alla har från tidigare. Processortiden kommer knappast aldrig att användas till slut under kortvarig gruppverksamhet.

DreamStation har ett mycket enkelt användargränssnitt. Med tjänstens gratisversion kan man skapa ca. 200 bilder.

DreamStation

DreamStation använder Stable Diffusion-algoritmen, liksom Nightcafé. För att komma in på sidan krävs det att man loggar in med t.ex. sitt Google-konto. 

Som enklast fungerar tjänsten genom att skriva in sina parametrar på sidans nedre kant och trycka på ”Dream”-knappen. Textinmatningen fungerar här på samma sätt som i de övriga apparna, men de övriga parametrarna matas in genom skjutreglage. 

  • Width = Bredd i pixlar
  • Height = Höjd i pixlar
  • Cfg Scale = Med den här fastställs hur exakt den artificiella intelligensen följer textparametern (0 = artificiella intelligensen hittar själv på innehållet, 20 försöker skapa något som är så exakt som möjligt) Standardvärde 7 (jfr. Midjourneys –s-parameter).
  • Steps = antal iterationer. Standardvärde 50 (jfr. Midjourneys –q-parameter).
  • Sampler har en mycket liten inverkan på slutresultatet. Inverkan av Sampler syns bara om Cfg Scale-värdet är mycket stort. En är kanske bättre på att skapa människoansikten medan en annan kanske är duktigare på att skapa moln i himlen. Det lönar sig att se hur Samplern fungerar efter att du skapat flera bilder. Hur Samplern fungerar har jämförts t.ex. här.

Gaugan

Gaugan 2 och NVIDIA Canvas är i praktiken samma sak, och de fungerar ganska långt på samma sätt. NVIDIA Canvas finns enbart för Windows-operativsystemet. Jag kommer här att presentera Gaugan 2-AI:n som fungerar i alla webbläsare.

Gaugan 2 är ett utmärkt verktyg för att skapa landskapsbilder. Den artificiella intelligensen har många olika parametrar. En av de mest väsentliga är textinmatningen samt att skapa en skiss med ett program som ser ut som Windows Paint-program.

Tills vidare måste textparametrarna för alla tjänster skrivas på engelska. Många unga kan behöva hjälp av handledaren i att skriva textparametrarna.

Att skapa en textparameter

  1. Skrolla ner till sidans nedre kant och godkänn användarvillkoren.
  2. När du skapar textparametrar, välj i menyn ”Input utilization” enbart punkten ”Text”
  3. När du skriver dina textparametrar, kom ihåg att den här artificiella intelligensen inte är särskilt bra på att generera människor, byggnader eller djur. Koncentrera dig istället på att beskriva omgivningen, till exempel ”mountains lake”.
  4. TRYCK INTE PÅ ENTER, det nollställer sidan och tvingar dig att börja från början. 
  5. För att visa bilden, tryck på pilen till höger under textfältet, eller på slumptärningen. Genom att klicka på pilen kan du välja en bakgrundsbild du själv vill ha för att styra artificiella intelligensen, med slumptärningen väljs en slumpmässig bakgrund.
  6. Bilden syns i lådan till höger.
  7. Om du vill lägga till element i bilden kan du lägga till mountains:+500 och trycka på pilen igen.
  8. Det är också lätt att placera bilden i någon viss omgivning genom att till exempel lägga till mark eller ett område.

Tecknad parameter

  1. Skrolla ner till sidans nedre kant och godkänn användarvillkoren.
  2. Välj i menyn ”input utilization” valet ”segmentation”.
  3. Välj verktyget ”Brush”. Du kan ändra på penselns form (brush shape) och storlek (brush size).
  4. Välj det element du vill ha i menyn till vänster och teckna in ett område för det i bilden. Turkos färg betyder himmel, så det behöver man inte skilt rita.
  5. Tryck på pilen till höger och bilden genereras. Du kan fortfarande göra ändringar i bilden. Uppdatera bilden genom att klicka på pilen igen.

Man kan spara bilderna genom att klicka på diskett-ikonen i det nedre hörnet. 

Med det här programmet kan vem som helst av de unga rita sitt eget drömlandskap i fotorealistisk stil. Det här kan lätt utnyttjas för att arbeta med till exempel dröm- och fantasiarbete med de unga. 

Visa alla vinkar