Skapa fotorealistiska bilder på människor – går det?

Går det att skapa fotorealistiska genrebilder på människor med hjälp av AI? Jag testade mina nybörjarkunskaper i Adobe Firefly, DALL-E och MidJourney.

Jag utgick från det här Instagraminlägget på Lunds universitet forskning:

Exempel på Instagraminlägg från @lundsuniversitet_forskning

Bilderna är hämtade från bildsajten Mostphotos.com och är inte jätteroliga. Skulle det funka att använda AI-verktyg för denna typ av inlägg istället?

Promptar

Promptarna , alltså textbeskrivningarna jag använde för att få fram en bild, såg lite olika ut för de olika verktygen och justerades allt eftersom jag testade mig fram, men de byggde generellt på följande:

Male caucasian patient in scandinavian hospital bed talking to a female african american doctor, serious faces

Eller:

Female african american doctor standing beside a hospital bed, talking to a male patient

Adobe Firefly Image 2

Firefly ingår i Adobe Creative Cloud, dels med inbyggda funktioner i Adobeprogrammen/apparna, dels som ett separat webbverktyg. Testet skedde i webbverktyget och text-till-bild-modulen:

Adobe Firefly text-till-bild

Adobe Firefly har ett väldigt snyggt och enkelt gränssnitt.

Här skriver du in din bildbeskrivning, och kan enkelt via en panel göra inställningar för olika stilar, effekter, fotoinställningar, belysning, färg, ton, ladda upp referensbild etcetera. Skriver du på engelska kan du också få förslag på beskrivningar.

Resultatet

Ansikten, ansiktsuttryck och händer var svårast att få till.

Människorna ser ”verkliga” men väldigt redigerade ut. De blir för släta och glowiga. Det blir lite bättre om jag drar ner reglaget för ”visuell intensitet”. Dessutom visar det sig vara väldigt svårt att få dem att inte le stort trots ord som “serious face” eller ”having pain” 🤨. Händer blir sällan rätt – ibland får de tre händer eller händer som svävar i luften. Och ögon pekar gärna på olika håll eller stirrar ut i tomma intet…

Även kroppsdelar som näsor kan bli problematiska…

Jag försökte också få till olika hudfärg på läkaren respektive patienten, vilket visade sig vara svårt. Mörkhyad läkare gav också mörhyad patient och tvärtom.

Svårt att generera en miljö som andas svensk sjukhus/skandinavisk sjukdvård. Det blir gärna snöiga alptoppar utanför fönstret 🏔️❄️

Resultatet blev lite bättre när jag laddade upp referensbild (en av bilderna från Instagraminlägget) för att få liknande miljö/färg/känsla.

Fördelar

Superkul att leka och testa runt
Smidigt gränssnitt och enkel panel med många valmöjligheter för att justera bilderna
Praktiskt för att skapa kreativa artsy bilder, illustrationer, loggor
Toppen att det ingår i Adobe-sviten

Nackdelar

Blir inte fotorealistiskt
Blir väldigt ”glowy” människor
Svårt med ögon/blicken – personerna tittar konstigt/på fel håll/på ingenting
Kroppsdelar, särskilt händer, fortfarande ett stort problem
Svårt att prompta specifika scener – att läkare står bredvid sjukhussängen och pratar med en patient
Svårt att få till olika hudfärg när det ska vara flera personer i en bild
Svårt att få personerna att ha de ansiktsuttryck man är ute efter

Bra frågor och svar om Firefly

Moderskeppets frågor och svar om Adobe Firefly

DALLE-E

DALL-E finns numera inbyggt i betalversionen av ChatGPT. Här jobbar du precis som i “vanliga” ChatGPT och promptar fram din bild. Till skillnad från Firefly (och MidJourney) så genereras endast en bild åt gången istället för fyra varianter.

Resultat

DALLE-E kan leverera häftiga och snygga bilder, och relativt realistiska sådana när det inte handlar om människor som motiv. Hur jag än promptar så blir resultatet mer likt en målning.

I DALLE-E ser bilderna ut som målningar.

Efter en del googling hittar jag en tråd på Reddit; ”Is it me or does Dall-E 3 not produce realistic photos?” Jag hittar tips på hur man bör skriva in typ av kamera och olika kamerainställningar. Men de flesta verkar överens om att Dall-e bara levererar bilder i stil med ”computer art”. Och trots test av olika specifika kameror och inställningar så tröttnar jag ganska snabbt på att försöka få till fotografiska genrebilder i DALL-E.

Mannen till vänster upplever i alla fall smärta, men kan det kanske bero
att han har jättemånga händer? Bilden till höger fick helt plötsligt
en helt annan stil och färgsättning 🧐…

Fördelar

Lätt att använda. Du skriver bara in vad du vill att bilden ska föreställa och är du van vid ChatGPT så är det superenkelt.
Smidigt att det ingår i ChatGPT som är det verktyget många nybörjare startar med.
Kan skapa grymma bilder i stil med “computer art”.

Nackdelar

Kan inte generera fotorealistiska bilder på människor alls?
Jag kommer inte i närheten av det jag är ute efter vare sig i stil eller motiv – i alla fall inte med mina grundläggande promptkunskaper.

MidJourney

MidJourney är liiite krångligare att starta upp och komma in i då du måste skapa ett inlogg i appen Discord först. Gränssnittet är också lite rörigare – i alla fall för en otålig person – då du befinner dig i en stor community med olika servrar där du kan chatta med olika människor om helt olika saker. Här finns också mängder av trådar och tips på hur du promptar på bästa sätt.

För att generera bilder chattar du med boten MidJourney och skriver din prompt. Du har lite fler valmöjligeter än i DALLE-E, men inte samma enkla panel med olika inställningar som i Firefly.

I MidJourney skriver du din prompt och får upp fyra olika förslag. När du väljer en av de fyra kan du antingen välja att förstora upp den, eller att skriva om prompten för just den bilden och generera
fyra nya versioner.

Ett tips jag hittade var att skriva in –style raw. Så här blev bilderna *utan* den taggen.

Och så här blev bilderna när jag promptade med –style raw. Lite mer fotorealistiska
(men utslätade och glowiga 🙃), även om ansiktsuttryck, blickar och placering av huvuden
lämnar en del att önska. Även lite tveksam till kläderna på de nedre bilderna?

Fördelar

Enkelt att välja vilka bild du vill jobba vidare med eller skala upp.
Grym på att generera artsy illustrationer och fantasyliknande motiv

Nackdelar

Svårt att veta hur du ska prompta och med vilka specifika termer om du är nybörjare.
Känslan av att det finns en hel värld att upptäcka här inne, om du har tiden…
Bilder på människor ser redigerade och allt för “glowy” ut.

Summering – och en fråga till dig som läst hela vägen hit

Går det att skapa fotorealistiska genrebilder med människor som motiv?

Ja det går, men det blir inte tillräckligt bra eller tillräckligt realistiskt för att jag – just nu – ska kunna använda dessa i forskningskommunikation i SoMe där Lunds universitet är avsändare. Det ser INTE ut som ett foto och människor får än så länge konstiga kroppsdelar och ansiktsuttryck.

Kan jag använda verktygen till andra typer av genrebilder?

Ja det tror jag! Men människor är svårt. Och detta case var troligtvis lite för specifikt och avancerat.

Vilket verktyg gillade jag bäst?

I skrivande stund vinner Firefly för mig… På grund av att det känns som att jag har mest kontroll där, med högerpanelen och alla dess inställningar som inte kräver att jag blir en promptspecialist.

FRÅGA: Kommentera jättegärna om ni har förslag på promptar och inställningar för att få till denna typ av bilder bättre 🙏!

13 december 2023

Anna Johnsson

Inlägget postades i

Bild

10 comments

Martin
26 februari 2024 | 09:53
hej, jag ser inget nämnas om den digra problematiken med generativ AI vilket är en viktig problemställning att diskutera innan man använder den:
– att man tränat de flesta av dessa program med levande konstnärer/upphovsrättsligt skyddat material – man kan tom betala för välfungerande promptar som ska generera bilder för att likna levande konstnärer
– att de flesta generativa AI-program har bias eller genererar direkta faktafel (tex Google Genesis)
– att bildgenereringsprogrammen fyller bildsökning med falska bilder som tränger undan tex verkliga foton, inte minst i propagandasyfte
Innan man börjar använda AI-genererat material på tex webben eller i presentationer tycker jag att detta är viktiga frågor att ta med sig.
Anna Johnsson
26 februari 2024 | 11:14
Hej Martin!
Tack för din kommentar och vad kul att du läser bloggen 🙂
Här på Medarbetarwebben har några av oss på sektionen Kommunikation tagit fram ett antal råd (kopplat dels till juridiska aspekter dels till LU:s grafiska profil) kring skapande av visuellt innehåll med AI: https://www.medarbetarwebben.lu.se/stod-och-verktyg/kommunikation-och-grafisk-profil/bild-film-och-musik/visuellt-innehall-med-ai
Det svarar inte på allt du nämner här, men en del.
Sedan är det såklart superviktigt att LU övergripande (inte bara som en kommunikationsfråga) tittar vidare på hur medarbetare ska/bör/får använda olika AI-verktyg i tjänsten. Det efterfrågas riktlinjer och rekommendationer, såväl som licenser inom många områden. Det är dock inte något som vi kommunikatörer som jobbar i denna lilla arbetsgrupp har till uppdrag att svara på, och syftet med den här bloggen är att dokumentera när vi testar olika verktyg.
Mvh, Anna
Janni Lundqvist Vedam
21 december 2023 | 12:55
En jättebra och intressant artikel ! 👏😌
Jag har haft liknande upplevelser när jag promptat. Kan bli lite läskigt med alla dessa händer, men väldigt roligt. 🙂
Janni Lundqvist Vedam
21 december 2023 | 12:54
En jättebra och intressant artikel! 👏😌
Jag har haft liknande upplevelser när jag promptat. Kan bli lite läskigt med alla dessa händer, men väldigt roligt. 🙂
Janni
21 december 2023 | 12:48
En jättebra och intressant artikel! 👏😌
Jag har haft liknande upplevelser när jag promptat. Kan bli lite läskigt med alla dessa händer, men väldigt roligt. 🙂
Anna VJ
18 december 2023 | 09:54
Ja, oerhört svårt att få människor att se naturliga ut, både när det gäller det fotorealistiska och som ni skriver – att få dem “normala” i kropp och utseende! Läste en tråd i ChatGPT Sverige på FB, där de försökte få till “en hyperrealistisk bild av en tonårig flicka, fotbollsspelare. Hon har blå tröja med tryck på ryggen ”Nilsson” och ”25”, vita shorts och vita strumpor. firande med fyrverkerier.”
Resultatet blev väldigt sexigt om man säger så… https://www.facebook.com/photo.php?fbid=10160172701893391&set=p.10160172701893391&type=3
Johanna
15 december 2023 | 16:19
Intressant! Förutom “glowy” blir de genererade människor jag sett (och det lilla jag själv testat) också “snygga”. Och det är ju vissa, men verkligen inte alla av oss 😉
Finns det sätt att komma runt det?
Edina Voloder
15 december 2023 | 17:00
Igår testade jag och min dotter att generera bilder i ChatGPT, och det var läskigt hur precis varenda en tjej porträtterades som pinnsmal och “picture perfect”. När vi försökte resonera med chatGPT om detta fick vi flera nya bilder – en efter en beskrevs som “mer naturliga och sunda kroppsformer” av ChatGPT, men var allt annat än naturliga och sunda i min mening. När vi var på AI-labbet i Stockholm i höstas pratades det om att man ibland måste vara obekvämt “tydlig” när man promptar. Av intresse testade jag att be chatGPT generera en bild på en kraftigt byggd medelålders kvinna, och fick något som jag snarare tycker liknar en normal kropp. Inte för att jag tror att min enskilda prompt i det här läget är relevant för världen och framtiden – men jag var noga med att understryka för chatGPT att “SÅ SER EN NORMAL, NATURLIG OCH SUND KROPP UT. LÄR DIG DET!” 😉
Anna VJ
15 december 2023 | 14:20
Åh vad kul med en läsare (och tack för kommentar) 👏😌
Louise
15 december 2023 | 14:08
Intressant läsning! Hälsningar en som läste ända hit 🙂

Generativ AI i kommunikation