Το ChatGPT μπορεί πλέον να δει, να ακούσει και να μιλήσει σε ορισμένους χρήστες

By

Marizas Dimitris

On

Σεπ 25, 2023

Το ChatGPT έχει φωνή—ή, μάλλον, πέντε φωνές. Την Δευτέρα,

ανακοίνωσε το OpenAI

Το αξιοσημείωτο, αμφιλεγόμενο μοντέλο της μεγάλης γλώσσας (LLM) μπορεί πλέον να συνομιλεί προφορικά με τους χρήστες, καθώς και να αναλύει φωτογραφίες και εικόνες που έχουν ανεβάσει.

Σε επιδείξεις βίντεο, το ChatGPT εμφανίζεται να προσφέρει μια αυτοσχέδια παιδική ιστορία πριν τον ύπνο, βασισμένη στην καθοδηγούμενη προτροπή, “Πες μας μια ιστορία για έναν σκαντζόχοιρο ηλίανθου σούπερ ντούπερ που ονομάζεται Larry”. Στη συνέχεια, το ChatGPT περιγράφει τον σκαντζόχοιρο πρωταγωνιστή του και προσφέρει λεπτομέρειες για το σπίτι και τους φίλους του. Σε άλλο παράδειγμα, η φωτογραφία ενός ποδηλάτου μεταφορτώνεται μέσω της

εφαρμογή

ς smartphone του ChatGPT μαζί με το αίτημα “Βοηθήστε με να κατεβάσω το κάθισμα του ποδηλάτου μου”. Στη συνέχεια, το ChatGPT προσφέρει μια διαδικασία βήμα προς βήμα μαζί με προτάσεις εργαλείων μέσω ενός συνδυασμού φωτογραφιών που ανεβαίνουν από τον χρήστη και εισαγωγών κειμένου χρήστη. Η εταιρεία περιγράφει επίσης καταστάσεις όπως το ChatGPT που βοηθά στη δημιουργία συνταγών για δείπνο με βάση τα συστατικά που προσδιορίζονται στις φωτογραφίες του ψυγείου και του ντουλαπιού ενός χρήστη, συνομιλώντας για ορόσημα που φαίνονται στις φωτογραφίες και βοήθεια με την εργασία στα μαθηματικά—αν και οι αριθμοί δεν είναι απαραίτητα

το δυνατό του κοστούμι

.

[Related:

School district uses ChatGPT to help remove library books

.]

Σύμφωνα με το OpenAI, οι αρχικές πέντε φωνές ήχου βασίζονται σε ένα νέο μοντέλο μετατροπής κειμένου σε ομιλία που μπορεί να δημιουργήσει ζωντανό ήχο μόνο από κείμενο εισαγωγής και «λίγα δευτερόλεπτα» δείγματος ομιλίας. Οι τρέχουσες επιλογές φωνής σχεδιάστηκαν μετά από συνεργασία με επαγγελματίες φωνητικούς ηθοποιούς.

Σε αντίθεση με τις προηγούμενες υποστηρικτικές εξελίξεις του LLM, οι νεότερες εξελίξεις του OpenAI επικεντρώνονται ιδιαίτερα στις άμεσες εμπειρίες των χρηστών με το πρόγραμμα, καθώς η εταιρεία επιδιώκει να επεκτείνει το πεδίο εφαρμογής και τη χρησιμότητα του ChatGPT για να το κάνει τελικά πιο ολοκληρωμένο εικονικό βοηθό. Τα ηχητικά και οπτικά πρόσθετα είναι επίσης εξαιρετικά χρήσιμα όσον αφορά την προσβασιμότητα για χρήστες με ειδικές ανάγκες.

«Αυτή η προσέγγιση έχει ενημερωθεί άμεσα από τη δουλειά μας με

Γίνε τα Μάτια Μου

μια δωρεάν εφαρμογή για κινητά για τυφλούς και άτομα με χαμηλή όραση, για να κατανοήσουν τις χρήσεις και τους περιορισμούς», εξηγεί το OpenAI στο

Ανακοίνωση 25 Σεπτεμβρίου

. “Οι χρήστες μας είπαν ότι θεωρούν πολύτιμο να έχουν γενικές συζητήσεις σχετικά με εικόνες που τυχαίνει να περιέχουν άτομα στο παρασκήνιο, όπως εάν κάποιος εμφανίζεται στην

τηλεόραση

ενώ προσπαθείτε να καταλάβετε τις ρυθμίσεις του τηλεχειριστηρίου σας.”

Για χρόνια, δημοφιλείς βοηθοί φωνητικής τεχνητής νοημοσύνης, όπως οι

Siri

και Alexa, προσφέρουν ιδιαίτερες ικανότητες και

υπηρεσίες

που βασίζονται σε προγραμματιζόμενες βάσεις δεδομένων συγκεκριμένων εντολών. Οπως και

Οι Νιου Γιορκ Ταιμς

Σημειώσεις, ενώ η ενημέρωση και η τροποποίηση αυτών των βάσεων δεδομένων συχνά αποδεικνύεται χρονοβόρα, οι εναλλακτικές λύσεις LLM μπορεί να είναι πολύ πιο γρήγορες, ευέλικτες και διαφοροποιημένες. Ως εκ τούτου, εταιρείες όπως η

Amazon

και η Apple επενδύουν στον εκ νέου εξοπλισμό των βοηθών τους AI για να χρησιμοποιήσουν τα δικά τους LLM.

Το OpenAI ανοίγει μια πολύ στενή βελόνα για να διασφαλίσει ότι η οπτική του ικανότητα ταυτοποίησης είναι όσο το δυνατόν πιο χρήσιμη, ενώ παράλληλα σέβεται το απόρρητο και την ασφάλεια τρίτων. Η εταιρεία έδειξε για πρώτη φορά

λειτουργία οπτικής ταυτότητας

νωρίτερα αυτό το έτος, αλλά είπε ότι δεν θα κυκλοφορήσει καμία έκδοση του στο κοινό πριν από μια πιο ολοκληρωμένη κατανόηση του πώς θα μπορούσε να γίνει κατάχρηση. Το OpenAI δηλώνει ότι οι προγραμματιστές του έλαβαν «τεχνικά μέτρα για να περιορίσουν σημαντικά την ικανότητα του ChatGPT να αναλύει και να κάνει άμεσες δηλώσεις για τους ανθρώπους» δεδομένων των καλά τεκμηριωμένων ζητημάτων του προγράμματος που αφορούν την ακρίβεια και το απόρρητο. Επιπλέον, το τρέχον μοντέλο είναι «γνώστης» μόνο με εργασίες στα Αγγλικά – οι δυνατότητές του υποβαθμίζονται σημαντικά με άλλες γλώσσες, ιδιαίτερα εκείνες που χρησιμοποιούν μη ρωμαϊκά σενάρια.

Το OpenAI σχεδιάζει να κυκλοφορήσει τις νέες αναβαθμίσεις ήχου και εικόνας του ChatGPT τις επόμενες δύο εβδομάδες, αλλά μόνο για τους premium συνδρομητές των προγραμμάτων Plus και Enterprise. Τούτου λεχθέντος, οι δυνατότητες θα γίνουν διαθέσιμες σε περισσότερους χρήστες και προγραμματιστές «σύντομα μετά».

https://www.popsci.com/

Παρόμοια άρθρα