5 種方法讓 Craiyon(原名 Dall-E mini)聽從你的意志 5 種方法讓 Craiyon(原名 Dall-E mini)聽從你的意志

5 種方法讓 Craiyon(原名 Dall-E mini)聽從你的意志

5 種方法讓 Craiyon(原名 Dall-E mini)聽從你的意志

想必你已經看過Dall-E mini(又名Craiyon)那超現實的九宮格漫畫作品了。你也可能會自己擺弄過這款開源AI影像產生器,生成過一些時而怪誕、時而滑稽的拼貼畫,例如Duolingo貓頭鷹的野外相機拍攝畫面,或是最新最熱門的遊戲馬桶。有時候你能如願以償,有時候卻事與願違。一切都取決於你提出什麼要求以及如何提出。

然而,找到合適的提示策略需要時間——你可能沒有給它足夠的時間,Craiyon 生成圖像可能需要長達三分鐘。值得慶幸的是,自從這個計畫走紅以來,用戶們已經開始摸索出這個有趣的小程式是如何運作的,現在有很多技巧可供參考,而這些技巧在本月初是沒有的。

重現藝術家、藝術風格、電子遊戲、玩具等的風格

讓 Craiyon 按照你的意願行事的最簡單方法之一,就是讓它產生特定藝術家或藝術風格的圖像。例如,你可能想要“安迪沃荷風格的賈賈賓克斯”、“愛德華蒙克風格的艾爾莫”、“葛飾北齋的《艾爾登法環》”、“一張食蟻獸建造房屋的老照片”,或者“一幅巨型魷魚的洞穴壁畫”。

這些提示通常都能成功,但偶爾人工智慧也會簡單地重現你輸入到文字方塊中的藝術家或風格的一幅著名畫作。例如,艾爾莫的提示大多將這隻紅色布偶放在蒙克最著名的畫作《吶喊》中;而艾爾登法環的提示則多次重現了葛飾北齋的《神奈川衝浪裡》

與藝術家和藝術風格稍有不同之處的是電子遊戲、電視節目、收藏品和玩具。 「《要塞英雄》裡的歐巴馬」、「《朱迪法官》裡的水箭龜」、「喬治華盛頓的Funko Pop玩偶」都是這類作品的典型例子。使用者還可以成功地讓Craiyon產生看起來像是監視攝影機、法庭素描師或追蹤相機拍攝的影像。

由於這裡的提示結構比較多樣化,你需要了解字詞的多種意義才能得到想要的結果。例如,「Blastoise on Judge Judy」並沒有變成手持大砲的寶可夢出現在法庭真人秀節目中的截圖;而是變成了這只藍色大烏龜站在一個勉強像法官席的背景前,或者乾脆坐在一個長相酷似朱迪·謝德林法官的恐怖幽靈上。不過,也許這正是你想要的。

我們也要注意到,不同風格的融合似乎效果不佳。一種風格似乎會掩蓋另一種風格。 「樂高驛馬車劫案老照片」看起來就像一張泛著淡淡棕褐色調的樂高驛馬車劫案照片。

將物品放置在指定位置或描述動作

你可以讓 Craiyon 將物體放置在特定位置,這樣就能擴大搜尋範圍。試試“罐子裡的太陽”或“泰坦尼克號上的魔王”,你應該至少可以得到一張接近你想要的圖像。

【相關報導:Google的文字轉圖像合成器太好用了】

同樣,涉及物體或角色做某事的提示也有效,儘管根據我們的經驗,這些提示的效果略遜一籌。例如「賈賈·賓克斯大戰達斯·維達」、「煙熊點燃營火」或「米老鼠抱著格羅古」。

做一些食物

Craiyon 通常能很好地理解食物的外觀,但也有些奇怪的例外。 「肉餅」和「巧克力壽司」都能很好地識別。奇怪的是,人工智慧似乎不理解拉麵是什麼,有時甚至連麵條都搞不清楚。無論是“座頭鯨從拉麵裡躍出”還是“座頭鯨從麵條裡躍出”,返回的都只有鯨魚正常躍出海面的圖像。看不到鹹鹹的麵條,只有海水。

要精心設計,但不要過於繁複。

有時候,即使你給出非常詳細的文字提示,人工智慧也能成功渲染,但似乎空間有限,無法完全展現你指令中的內容。我們讓它相當準確地渲染出「一隻熊假扮成高中生,背著紅色書包在黑板上寫字,旁邊站著一位老師」的圖像,但當我們說老師「手裡拿著一隻雞」時,它就開始把老師換成雞,或者只顯示那隻「書呆子熊」。

你甚至可以貼上大段文字,看看會發生什麼。我們試了《白鯨記》的開頭段落,Craiyon 產生了九張19世紀海上捕鯨船的圖片。有些圖片上甚至還有一個人影的影子。是伊什梅爾嗎?也許是吧。

細節有時能奏效。

坊間流傳著一些說法,認為在 Craiyon 的圖片上添加「細節」、「4K」、「8K」或「照片級真實感」等選項會讓圖片更加清晰。我們嘗試了幾次,但並沒有發現明顯的差異。 「比爾奈,大理石雕塑」和「比爾奈,大理石雕塑,細節」看起來幾乎一樣。

加上「解剖結構正確」之後效果稍微好一些。不過說實話,我們不太確定是否還想再看到「解剖結構正確的皮卡丘」——這種作品我們還是留給自己去欣賞吧。

目前行不通的方法(至少現在是這樣)

Craiyon 仍在學習中,但目前看來它似乎還不理解否定詞。如果你讓它產生一個沒有頭部的特定人物,它仍然會保留所有頭部。考慮到該程式的開發者認為使用其人工智慧生成人們認為「令人不安、痛苦或冒犯」的圖像屬於濫用行為,我們嘗試了「沒有火炬的自由女神像」這樣的指令,以避免潛在的血腥畫面,但 Craiyon 生成的自由女神像仍然高舉著火炬。

它也很難生成單詞,甚至根本無法生成。 「穿著印有『我喜歡蛋糕』字樣T恤的男人」這句話,只會生成一個穿著T恤的男人拿著蛋糕,臉上露出各種興奮表情的圖像。即使把「我喜歡蛋糕」加上引號,結果也一樣。或許人工智慧很難理解單字的真正意義以及它們應該如何呈現。

但只要Craiyon能把我們的文字轉化成有趣的藝術作品,這些對我們來說都不重要。所以,請儘管把你們最好的作品寄給我們吧。