Το Μέλλον της Τεχνητής Νοημοσύνης: Οδηγός για το OpenAI Sora

By

Marizas Dimitris

On

Φεβ 25, 2024

Το

OpenAI αποκάλυψε τον Sora στον κόσμο στις 15 Φεβρουαρίου 2024 μοιράζοντας μια χούφτα αξιοσημείωτα βίντεο που δημιουργήθηκαν με τεχνητή νοημοσύνη και ένα

ερευνητική εργασία

στο Χ.

Το Sora δεν ήταν το πρώτο μοντέλο βίντεο τεχνητής νοημοσύνης, αλλά ήταν το πρώτο που έδειξε τόσο υψηλά επίπεδα συνέπειας, διάρκειας και ρεαλισμού φωτογραφίας.

Αν και το αποτέλεσμα φαίνεται εντυπωσιακό, μέχρι στιγμής μόνο βίντεο που έχουν δημιουργηθεί από το προσωπικό του OpenAI έχουν κοινοποιηθεί είτε στο X είτε στο TikTok, αν και ορισμένα έγιναν με προτροπές που προτείνουν οι θαυμαστές.

Δεν έχει οριστεί ακόμη ημερομηνία για το πότε θα δημοσιοποιηθεί το μοντέλο ή ποιοι περιορισμοί θα τεθούν στην έξοδο του προτού ενσωματωθεί σε ένα εργαλείο όπως το ChatGPT.

Νέα και ενημερώσεις Sora (Ενημερώθηκε 23 Φεβρουαρίου 2024)

Τι είναι το OpenAI Sora;

(Πίστωση εικόνας: OpenAI)

Το Sora είναι ένα παραγωγικό μοντέλο βίντεο, παρόμοιο με το Runway’s Gen-2, το Pike Labs Pika 1.0 και το Stable Video

Diffusion

από τη StabilityAI. Μετατρέπει κείμενο, εικόνες ή βίντεο σε

περιεχόμενο

βίντεο AI.

Ονομάστηκε από την ιαπωνική λέξη «ουρανός», που η εταιρεία είπε ότι ήταν για να δείξει τις «απεριόριστες δημιουργικές δυνατότητές της». Ένα από τα πρώτα κλιπ έδειχνε δύο ανθρώπους να περπατούν στο Τόκιο στο χιόνι.

Σε αντίθεση με ορισμένα από τα μοντέλα που προηγήθηκαν, η Sora φαίνεται να είναι πολύ πιο ικανή, ικανή να δημιουργήσει κλιπ διάρκειας έως και ενός λεπτού και με συνεπείς χαρακτήρες και κίνηση.

Ποια είναι η τεχνολογία πίσω από το Sora;

Το gif του Sora δημιούργησε ένα βίντεο με σκυλιά που γλεντάνε — (Πίστωση εικόνας: OpenAI)

Η τεχνολογία πίσω από το Sora είναι μια προσαρμοσμένη έκδοση των μοντέλων που έχουν κατασκευαστεί για το DALL-E 3, τη δημιουργική πλατφόρμα εικόνας του OpenAI, αλλά με πρόσθετες λειτουργίες για ακριβή έλεγχο.

Το Sora είναι ένα μοντέλο μετασχηματιστή διάχυσης, δηλαδή παντρεύει τον τύπο του μοντέλου παραγωγής εικόνας πίσω από το Stable Diffusion με τις γεννήτριες που βασίζονται σε διακριτικά που τροφοδοτούν το ChatGPT.

Ένα βίντεο δημιουργείται σε έναν λανθάνοντα χώρο και «αποθορίζεται» ή σχηματίζεται σε τρισδιάστατα μπαλώματα και στη συνέχεια περνά μέσα από έναν αποσυμπιεστή βίντεο για να μετατραπεί σε μια τυπική έξοδο με δυνατότητα προβολής από τον άνθρωπο.

Με ποια δεδομένα εκπαιδεύτηκε ο Σόρα;

Η OpenAI λέει ότι εκπαίδευσε το μοντέλο της σε δημόσια διαθέσιμα βίντεο, περιεχόμενο δημόσιου τομέα και βίντεο που προστατεύονται από πνευματικά δικαιώματα όπου είχε αγοράσει εκ των προτέρων την άδεια.

Δεν έχει πει ακριβώς πόσα βίντεο μπήκαν στα δεδομένα της εκπαίδευσης και είναι απίθανο να αποκαλύψει ποτέ αυτές τις πληροφορίες. Πιστεύεται ότι είναι σε εκατομμύρια.

Η εταιρεία χρησιμοποίησε μια μηχανή μετατροπής βίντεο σε κείμενο για να δημιουργήσει λεζάντες και ετικέτες από αρχεία βίντεο που έχουν απορροφηθεί για να βελτιώσει περαιτέρω το Sora σε πραγματικό περιεχόμενο.

Φήμες και εικασίες υποδηλώνουν ότι το OpenAI έκανε επίσης χρήση συνθετικού περιεχομένου βίντεο, όπως αυτό που δημιουργήθηκε χρησιμοποιώντας το Unreal Engine 5, καθώς αυτό θα του έδινε επίσης πληροφορίες σχετικά με τη φυσική των κόσμων μέσα στα βίντεο κλιπ που έλαβε.

Γιατί η Sora εξέπληξε τους προγραμματιστές της;

Παρουσιάζουμε το Sora, το μοντέλο μετατροπής κειμένου σε βίντεο. Το Sora μπορεί να δημιουργήσει βίντεο διάρκειας έως και 60 δευτερολέπτων με εξαιρετικά λεπτομερείς σκηνές, πολύπλοκες κινήσεις κάμερας και πολλούς χαρακτήρες με ζωηρά συναισθήματα. https://t.co/7j2JN27M3WPrompt: «Όμορφη, χιονισμένη… pic.twitter.com/ruTEWn87vf

15 Φεβρουαρίου 2024

Δείτε περισσότερα

Κάθε μοντέλο τεχνητής νοημοσύνης μεγάλης κλίμακας έχει τις ιδιορρυθμίες του, συμπεριφέρεται με απροσδόκητους τρόπους ή ανταποκρίνεται σε προτροπές με τρόπο που μοιάζει σχεδόν με το αντίθετο από αυτό που επιδιώκεται. Η Σόρα δεν είναι διαφορετική.

Κατά τη διάρκεια της μετα-προπονητικής εκτέλεσης Tom Brooks, ένας ερευνητής της Sora είπε ότι φαινόταν να έχει βρει πώς να δημιουργήσει τρισδιάστατα γραφικά από το δικό του σύνολο δεδομένων χωρίς καμία πρόσθετη εκπαίδευση.

Εν τω μεταξύ, ο Bill Peebles, ένας άλλος ερευνητής που εργάζεται στο μοντέλο είπε ότι δημιουργούσε αυτόματα διαφορετικές γωνίες βίντεο χωρίς να του ζητηθεί – υπέθεσε ότι αυτό ήταν αυτό που χρειαζόταν.

Τι γίνεται με τους περιορισμούς περιεχομένου και το απόρρητο;

Κατά τη διάρκεια της εκπαίδευσης, υπήρχαν επίσης κόκκινες ομάδες και ειδικοί σε θέματα ασφάλειας που εργάζονταν για την παρακολούθηση, την επισήμανση και την

απαγόρευση

περιπτώσεων χρήσης για παραπληροφόρηση, περιεχόμενο μίσους και μεροληψία μέσω δοκιμών αντιπάλου.

Υπάρχουν επίσης ετικέτες μεταδεδομένων στα βίντεο που δημιουργούνται για να επισημανθούν ως κατασκευασμένα από τεχνητή νοημοσύνη και ταξινομητές κειμένου που θα ελέγχουν ότι τα μηνύματα δεν παραβιάζουν τις πολιτικές χρήσης.

Όπως και το DALL-E 3, το OpenAI λέει ότι η Sora θα έχει έναν αριθμό περιορισμών περιεχομένου πριν από την κυκλοφορία. Αυτό θα περιλαμβάνει όρια στη

δημιουργία εικόνων

πραγματικών ανθρώπων.

Αυτό θα περιλαμβάνει επίσης την απαγόρευση δημιουργίας βίντεο που εμφανίζουν ακραία βία, σεξουαλικό περιεχόμενο, εικόνες μίσους, ομοιότητα διασημοτήτων ή τη διεύθυνση IP άλλων, όπως λογότυπα και προϊόντα. Τίποτα από αυτά δεν είναι εύκολα δυνατό με το DALL-E 3 και θα ισχύουν οι ίδιοι περιορισμοί.

Πώς μπορώ να έχω πρόσβαση στο Sora;

ακόμα από ένα βίντεο που δημιουργήθηκε με μια προτροπή κειμένου από το OpenAI Sora — (Πίστωση εικόνας: OpenAI)

Το OpenAI δεν έχει ορίσει ακόμη δεδομένα κυκλοφορίας για το Sora, δηλώνοντας ότι έχει περισσότερη δουλειά να κάνει για την ασφάλεια και την ασφάλεια που σχετίζονται με το μοντέλο. Αναμένεται κάποια στιγμή τον Απρίλιο ή τον Μάιο.

Το πιο πιθανό είναι ότι το Sora θα ενσωματωθεί στο ChatGPT παρόμοιο με το DALL-E 3 αντί να διατίθεται ως αυτόνομο προϊόν — αν και οι προηγούμενες εκδόσεις του DALL-E είχαν τη δική τους σελίδα.

Το μοντέλο θα είναι επίσης διαθέσιμο ως API όπου οι τρίτοι προγραμματιστές μπορούν να ενσωματώσουν τη λειτουργικότητά του στα δικά τους προϊόντα, αν και αυτό θα γίνει πιο κάτω.

Αυτό συμβαίνει ήδη με το DALL-E 3. Για παράδειγμα, μπορείτε να χρησιμοποιήσετε το μοντέλο OpenAI στο δικό σας προϊόν για να δημιουργείτε αυτόματα εικόνες ή, όπως συμβαίνει με την πλατφόρμα εικόνων AI NightCafe, να προσφέρετε τη δική σας διεπαφή για τη δημιουργία εικόνων με το μοντέλο.

Περισσότερα από το Tom’s Guide

VIA:

TomsGuide.com