Τι είναι το DALL·E 2; Επεξήγηση για αρχάριους με παραδείγματα

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



Τι είναι το DALL·E 2;

Το DALL·E 2 είναι ένα πρόγραμμα τεχνητής νοημοσύνης που δημιουργεί εικόνες από περιγραφές κειμένου, όπως αποκαλύφθηκε την Πέμπτη από την OpenAI, μια ερευνητική εταιρεία.





Χρησιμοποιεί μια έκδοση εκπαίδευσης 12 δισεκατομμυρίων παραμέτρων του μοντέλου μετασχηματιστή GPT-3 για την ερμηνεία των εισόδων φυσικής γλώσσας και τη δημιουργία αντίστοιχων εικόνων. Για παράδειγμα, όταν παρέχεται με την πρόταση «μια ασπρόμαυρη φωτογραφία ενός μικρού σκύλου», παρήγαγε μια σωστή ασπρόμαυρη εικόνα ενός Τσιουάουα.





Το σύστημα δεν είναι τέλειο — μερικές φορές παράγει εικόνες που είναι δύσκολο να ερμηνευτούν ή εντελώς ασυνήθιστες. Για παράδειγμα, όταν ζητήθηκε να δημιουργήσει μια εικόνα ενός ατόμου που οδηγεί ένα μονόκυκλο σε ένα τεντωμένο σχοινί πάνω από ένα ηφαίστειο, παρήγαγε μια (όμορφη, κατά τη γνώμη μου) αλλά εντελώς άσχετη εικόνα ενός ηλιοβασιλέματος πάνω από το νερό με μια μικρή φιγούρα στο πρώτο πλάνο. .





Ωστόσο, τα αποτελέσματα είναι εντυπωσιακά και το OpenAI λέει ότι το DALL·E 2 «είναι το πρώτο μοντέλο τεχνητής νοημοσύνης που δημιουργεί εικόνες από περιγραφές κειμένου που μπορούν να συναγωνιστούν την ποιότητα των επαγγελματιών ανθρώπων καλλιτεχνών».



Το σύστημα εκπαιδεύτηκε σε ένα σύνολο δεδομένων ζευγών κειμένου-εικόνων, που αποτελούνταν από περίπου 1,3 εκατομμύρια εικόνες και λεζάντες από το Διαδίκτυο, οι οποίες αποκόπηκαν και επιμελήθηκαν το OpenAI. Στη συνέχεια, τα δεδομένα εκπαίδευσης χρησιμοποιήθηκαν για να τελειοποιήσουν το μοντέλο GPT-3, έτσι ώστε να μπορεί να δημιουργήσει εικόνες από περιγραφές κειμένου.

Το OpenAI λέει ότι το σύστημα μπορεί να δημιουργήσει εικόνες «υψηλής ποιότητας» από ένα ευρύ φάσμα περιγραφών κειμένου, συμπεριλαμβανομένων αυτών που είναι αφηρημένες, συγκεκριμένες ή ακόμα και ποιητικές.

Εκτός από το παράδειγμα Τσιουάουα, άλλα παραδείγματα εικόνων που παράγονται από το DALL·E 2 περιλαμβάνουν ένα σωστά αποδομένο πορτρέτο του Αδόλφου Χίτλερ, μια εικόνα ενός δράκου από λαχανικά και μια εικόνα της Μόνα Λίζα από τοστ.



Το σύστημα είναι επίσης σε θέση να δημιουργήσει εικόνες για πράγματα που δεν υπάρχουν, όπως ένα «floof» (ένα φτιαγμένο ζώο) ή ένα «tulpa» (μια μορφή σκέψης).

Συνολικά, τα αποτελέσματα είναι εντυπωσιακά και το OpenAI λέει ότι το σύστημα «ανοίγει νέες δυνατότητες για τη δημιουργία εικόνων από περιγραφές κειμένου».

ΑΠΟ Ε 2 Αυτό CLIP-σύστημα μετατρέπει τις πληροφορίες κειμένου σε οπτικές πληροφορίες. Αυτό είναι ένα παράδειγμα κωδικοποιητή-αποκωδικοποιητή, που σημαίνει ότι όταν παρέχεται κείμενο εισαγωγής, μετατρέπεται πρώτα σε είσοδο μηχανής, στη συνέχεια υποβάλλεται σε επεξεργασία από το σύστημα και τέλος περνά στον αποκωδικοποιητή, ο οποίος μετατρέπει τα κωδικοποιημένα δεδομένα σε εικόνα.

Τι είναι το DALL E 2

Τι είναι το DALL·E 2;

Αυτή είναι η τελευταία γενιά του DALL·E, ενός παραγωγικού γλωσσικού μοντέλου που χρησιμοποιεί φράσεις για να δημιουργήσει εντελώς νέα οπτικά εφέ. Το DALL E 2 είναι ένα τεράστιο μοντέλο 3,5 V, αν και όχι τόσο τεράστιο όσο το GPT-3. Είναι ενδιαφέρον ότι είναι επίσης ελαφρύτερο από τον προκάτοχό του (12B). Όσον αφορά την ευθυγράμμιση περιγραφής και τον φωτορεαλισμό, το DALL·E 2 είναι 70% καλύτερο από το DALL·E 2 παρά το μεγαλύτερο μέγεθός του.

DALL.E 2- εξήγηση για αρχάριους με παραδείγματα

Συγκεκριμένα, το DALL·E 2 είναι ένα ιεραρχικό μοντέλο σύνθεσης εικόνας κειμένου υπό όρους που συνδυάζει τη βαθιά εκμάθηση για επεξεργασία φυσικής γλώσσας με την όραση υπολογιστή για τη δημιουργία εικόνων. Στόχος του είναι να εκπαιδεύσει δύο μοντέλα και το σετ εκπαίδευσης αποτελείται από ζευγαρωμένες εικόνες και περιγραφές. Το πρώτο είναι a priori που, δεδομένου ενός γραπτού τίτλου, μπορεί να εκπαιδευτεί για τη δημιουργία μιας ενσωμάτωσης εικόνας CLIP. Στη συνέχεια, έχουμε έναν αποκωδικοποιητή που, κατά την ενσωμάτωση μιας εικόνας CLIP (και της λεζάντας, εάν υπάρχει), μπορεί να δημιουργήσει μια εκπαιδευμένη εικόνα.

Το DALLE 2 εκπαιδεύεται χρησιμοποιώντας εκατοντάδες εκατομμύρια φωτογραφίες με λεζάντες από το διαδίκτυο και ορισμένες από αυτές τις εικόνες αφαιρούνται και ανακατασκευάζονται για να αλλάξουν αυτά που μαθαίνει το μοντέλο. Ανακτά πολλές επιλογές εικόνας Συνημμένα CLIP και μετά χρησιμοποιήστε το αποκρυπτογράφος περάστε από καθένα από αυτά. Στη συνέχεια δημιουργεί ένα ενδιαφέρον μείγμα όλων αυτών των πληροφοριών με βάση τα στοιχεία του χρήστη.

Παράδειγμα DALL IS 2

Ας παίξουμε ένα μικρό παιχνίδι για να καταλάβουμε DALL·E. Ας το αναλύσουμε στα επόμενα τρία βήματα.

  1. Φανταστείτε ουράνια τόξα, σύννεφα και μονόκερους να πετούν στον γαλάζιο ουρανό. Φανταστείτε πώς θα μπορούσε να είναι μια εικόνα στη φαντασία σας. Οι άνθρωποι είναι το πιο κοντινό πράγμα που έχουμε στο τέλειο ανάλογο μιας ενσωματωμένης εικόνας και η εικόνα που μόλις εμφανίστηκε στο μυαλό σας είναι ένα τέλειο παράδειγμα αυτού. Μπορείτε μόνο να μαντέψετε για το τελικό προϊόν, αλλά έχετε μια καλή ιδέα για το τι πρέπει να συμπεριληφθεί. Το a priori μοντέλο μεταφέρει τον αναγνώστη από τις λέξεις μιας φράσης σε μια σκηνή της φαντασίας του.
  2. Τώρα μπορείτε να αρχίσετε να σχεδιάζετε. Αυτό που κάνει το unCLIP είναι να μετατρέπει τη νοητική σας εικόνα σε πραγματικό σκίτσο. Τώρα μπορείτε να αναδημιουργήσετε με ακρίβεια έναν άλλο χαρακτήρα από την ίδια περιγραφή, με τα ίδια βασικά στατιστικά, αλλά με ένα εντελώς νέο οπτικό στυλ. Το DALL·E 2 μπορεί επίσης να δημιουργήσει μοναδικές εικόνες από μια υπάρχουσα εικόνα ενσωματωμένη με αυτόν τον τρόπο.
  3. Προσοχή στο σκίτσο που φτιάξατε. Αυτό συμβαίνει όταν σκιαγραφείτε την περιγραφή του «ένας μονόκερος στη μέση των σύννεφων και ένα ουράνιο τόξο υψώνεται στον ουρανό». Τώρα εξετάστε την εικόνα και το κείμενο για να προσδιορίσετε τι εικονογραφεί καλύτερα το άλλο (ήλιος, σπίτι, δέντρο κ.λπ.) και τι απεικονίζει καλύτερα το θέμα, το στυλ, τα χρώματα κ.λπ. Αυτό που κάνει το CLIP είναι να κωδικοποιεί χαρακτηριστικά. κείμενο και εικόνες.

Τώρα που ξέρουμε τι είναι το DALL-E, ας προχωρήσουμε στην επόμενη ενότητα και ας κατανοήσουμε τα χαρακτηριστικά του.

Υπόδειξη: Πώς να δημιουργήσετε ρεαλιστικές εικόνες με την υπηρεσία AI DALL-E-2

Διαθέτει DALL E 2

Παρακάτω είναι οι προδιαγραφές του DALL·E 2.

  1. Παραλλαγές
  2. Χρωστικός
  3. Διαφορές κειμένου

Ας μιλήσουμε για αυτά λεπτομερώς.

πώς να φτιάξετε επαγγελματικές κάρτες στη λέξη 2010

1] Παραλλαγές

Το DALL·E 2 υπερβαίνει την απλή μετάφραση μιας πρότασης σε εικόνα. Το OpenAI μπορεί να πειραματιστεί με τη διαδικασία παραγωγής, παράγοντας διαφορετικά αποτελέσματα για μια δεδομένη υπογραφή χάρη στις ισχυρές ενσωματώσεις CLIP. Αυτό που «βλέπει» το CLIP στο «μυαλό» του είναι τι θεωρεί σημαντικό από την είσοδο (παραμένει το ίδιο για όλες τις εικόνες) και τι μπορεί να αντικατασταθεί (που αλλάζει για διαφορετικές εικόνες). Όποτε είναι δυνατόν, το DALL·E 2 θα διατηρεί τόσο «σημαντικές πληροφορίες...και αισθητικές πτυχές».

2] Χρωματισμός

Το DALL·E 2 μπορεί να τροποποιήσει υπάρχουσες φωτογραφίες με αυτόματο γέμισμα. Στο παρακάτω παράδειγμα, η αριστερή εικόνα είναι η αρχική εικόνα και η κεντρική και η δεξιά φωτογραφία έχουν το στοιχείο σχεδιασμένο σε διαφορετικά σημεία. Το DALL·E 2 ταιριάζει με ένα πρόσθετο στοιχείο στο στυλ εικόνας. Επίσης, ενημερώνει τις υφές και τις αντανακλάσεις για να αντικατοπτρίζει το νέο στοιχείο.

Ανάγνωση : Τι μπορείτε να κάνετε με το ChatGPT

3] Διαφορές κειμένου

Το DALL·E 2 μετατρέπει εικόνες χρησιμοποιώντας διαφορές κειμένου. Το DALL·E 2 διαθέτει επίσης προηγμένες δυνατότητες παρεμβολής που σας επιτρέπουν να τροποποιείτε αντικείμενα. Ένας χρήστης του Twitter μπόρεσε να «ξεκαθαρίσει» το iPhone του. twitter.com για να το ελέγξετε.

Αν σας αρέσουν αυτά τα χαρακτηριστικά, το μόνο που έχετε να κάνετε είναι να μεταβείτε στο openai.com και μετά εγγραφείτε. Μπορείτε να δημιουργήσετε έναν νέο λογαριασμό ή να χρησιμοποιήσετε τους υπάρχοντες λογαριασμούς Microsoft ή Google για να εγγραφείτε. Μόλις το κάνετε αυτό, θα λάβετε μερικές δωρεάν πιστώσεις, αν θέλετε περισσότερες, θα πρέπει να πληρώσετε για αυτό.

Αυτά είναι μερικά από τα χαρακτηριστικά του DALL·E 2, έχει πολλές εξαιρετικές περιπτώσεις χρήσης, ωστόσο συνιστάται πάντα να μην βασίζεστε πολύ σε εργαλεία AI. Εξάλλου, δεν είναι παρά εργαλεία που χρησιμοποιούνται για να γίνει η δουλειά, δεν μπορούν ποτέ να αντικαταστήσουν τη συναισθηματική νοημοσύνη ενός ατόμου.

Διαβάστε επίσης: Οι καλύτερες εφαρμογές, λογισμικό και ιστότοποι Deepfake.

Τι είναι το DALL E 2
Δημοφιλείς Αναρτήσεις