Τι είναι ο δρυοκολάπτης και πώς θεραπεύει την ψευδαίσθηση AI;



Καθώς η ευρεία χρήση των μοντέλων MLLM αυξάνεται, ένα από τα εμπόδια στην πορεία της τεχνητής νοημοσύνης γίνεται πιο ξεκάθαρο: η ψευδαίσθηση AI και ο δρυοκολάπτης είναι

ερευνητές λύσεων από το Πανεπιστήμιο Επιστήμης και Τεχνολογίας της Κίνας (USTC) και το Tencent YouTu Lab κατέληξαν στο

.

Τα πολυτροπικά μοντέλα μεγάλων γλωσσών (MLLM) είναι ένας τύπος μοντέλου τεχνητής νοημοσύνης που μπορεί να μάθει και να επεξεργάζεται δεδομένα από πολλαπλούς τρόπους, όπως κείμενο, εικόνες και

. Αυτό τους επιτρέπει να εκτελούν ένα ευρύ φάσμα εργασιών που

δυνατές για τα παραδοσιακά γλωσσικά μοντέλα, όπως η σύνοψη εικόνων, η σύνοψη βίντεο και η απάντηση ερωτήσεων με πολλαπλή εισ

.

Χάρη στην ικανότητά τους να θέτουν στη διάθεσή μας μεγάλο αριθμό εξόδων, τα μοντέλα MLLM χρησιμοποιούνται σχεδόν σε κάθε «έξυπνη» συσκευή. Τώρα, πολλά τεχνολογικά θαύματα, από έξυπνα αυτοκίνητα έως συσκευές IoT, όπως η Alexa, χρησιμοποιούν μοντέλα MLLM. Ωστόσο, αυτό δεν σημαίνει ότι αυτά τα μοντέλα μπορούν να αποφύγουν ενοχλητικά και επαναλαμβανόμενα σφάλματα.

Η ψευδαίσθηση AI, σαν μια πόρτα που τρίζει, είναι ένα πρόβλημα των μοντέλων MLLM που αγνοούμε αλλά και ενοχλούμαστε. Σκεφτείτε το, πόσες φορές ένα chatbot όπως το ChatGPT απέτυχε να απαντήσει σωστά στην προτροπή σας ή το Midjourney δεν μπορούσε να δημιουργήσει την τέλεια εικόνα για εσάς; Γιατί η άμεση μηχανική είναι μια αξιόπιστη δουλειά αυτή τη στιγμή; Γιατί οι τεχνολογίες AI δεν είναι έτοιμες για εφαρμογές πραγματικού κόσμου; Όλα συνδέονται με τις ατέλειες στις τεχνολογίες MLLM, αλλά ο δρυοκολάπτης είναι η τέλεια πιθανή θεραπεία για μια δυσλειτουργική τεχνητή νοημοσύνη.



Ο στόχος του Woodpecker είναι να δημιουργήσει μια δομημένη οπτική βάση γνώσεων για τη διόρθωση παραισθήσεων στις απαντήσεις MLLM


(

Πίστωση εικόνας

)

Ο δρυοκολάπτης θεραπεύει μοντέλα τεχνητής νοημοσύνης σαν δέντρο

Έχει δοθεί μια αυξανόμενη εστίαση στο φαινόμενο των ψευδαισθήσεων στα MLLM και προηγούμενες έρευνες έχουν διερευνήσει στρατηγικές αξιολόγησης/ανίχνευσης και μετριασμού. Ωστόσο, η εργασία του Woodpecker στοχεύει να βελτιώσει τις απαντήσεις των MLLM τροποποιώντας τα παραισθησιακά μέρη, χρησιμοποιώντας ένα πλαίσιο χωρίς εκπαίδευση. Επιπλέον, έχει διερευνηθεί η χρήση της γνώσης στα MLLM για την ανακούφιση πραγματικών παραισθήσεων, αλλά η μεταφορά αυτής της ιδέας στο πεδίο της γλώσσας της όρασης είναι πρόκληση.

Το προτεινόμενο πλαίσιο του Woodpecker αξιοποιεί τα LLM για να βοηθήσει στην οπτική συλλογιστική και να διορθώσει τις οπτικές παραισθήσεις στις απαντήσεις MLLM. Το πλαίσιο αποτελείται από πέντε υποεργασίες: εξαγωγή βασικών εννοιών, διατύπωση ερωτήσεων, επικύρωση οπτικής γνώσης, δημιουργία οπτικών ισχυρισμών και διόρθωση παραισθήσεων.

Ο δρυοκολάπτης λειτουργεί ακολουθώντας αυτά τα πέντε βήματα:


  1. Εξαγωγή βασικής έννοιας

    : Ο δρυοκολάπτης εξάγει βασικές έννοιες από την απάντηση του MLLM. Αυτές οι έννοιες χρησιμοποιούνται για τη διάγνωση παραισθήσεων και τη δημιουργία ερωτήσεων για την αντιμετώπισή τους

  2. Διατύπωση ερώτησης

    : Ο δρυοκολάπτης διατυπώνει ερωτήσεις για την αντιμετώπιση παραισθήσεων σε επίπεδο αντικειμένου και χαρακτηριστικών. Αυτές οι ερωτήσεις έχουν σχεδιαστεί για να απαντώνται χρησιμοποιώντας ανίχνευση αντικειμένων και μοντέλο VQA

  3. Επικύρωση οπτικής γνώσης

    : Ο δρυοκολάπτης χρησιμοποιεί ανίχνευση αντικειμένων και ένα μοντέλο VQA για να απαντήσει στις ερωτήσεις που διατυπώθηκαν στο βήμα 2. Αυτό βοηθά στην επικύρωση της οπτικής γνώσης και στον εντοπισμό πιθανών παραισθήσεων

  4. Δημιουργία οπτικής αξίωσης

    : Ο δρυοκολάπτης δημιουργεί οπτικούς ισχυρισμούς συνδυάζοντας τις ερωτήσεις και τις απαντήσεις από το βήμα 3. Αυτοί οι οπτικοί ισχυρισμοί χρησιμοποιούνται για τη διόρθωση παραισθήσεων στην απάντηση του MLLM

  5. Διόρθωση ψευδαισθήσεων

    : Ο δρυοκολάπτης χρησιμοποιεί ένα LLM για να διορθώσει τις παραισθήσεις στην απάντηση του MLLM με βάση τους οπτικούς ισχυρισμούς. Αυτό περιλαμβάνει την τροποποίηση των παραισθησιογόνων μερών της απόκρισης για να γίνουν συνεπείς με την οπτική γνώση

Ο απώτερος στόχος όλων αυτών είναι η οικοδόμηση μιας δομημένης οπτικής γνωσιακής βάσης ειδικής για την εικόνα και την απόκριση προκειμένου να διορθωθούν οι παραισθήσεις. Για να δώσουμε ένα παράδειγμα του τρόπου λειτουργίας του Woodpecker:


Απάντηση MLLM

: Υπάρχει ένα κόκκινο αυτοκίνητο στην εικόνα.


Δρυοκολάπτης

:

  1. Ο δρυοκολάπτης εξάγει τις βασικές έννοιες «αυτοκίνητο» και «κόκκινο» από την απάντηση
  2. Ο δρυοκολάπτης διατυπώνει την εξής ερώτηση: “Υπάρχει κόκκινο αυτοκίνητο στην εικόνα”
  3. Ο δρυοκολάπτης χρησιμοποιεί ανίχνευση αντικειμένων για να αναγνωρίσει όλα τα αυτοκίνητα στην εικόνα. Στη συνέχεια χρησιμοποιεί ένα μοντέλο VQA για να ρωτήσει κάθε αυτοκίνητο εάν είναι κόκκινο. Εάν κανένα αυτοκίνητο στην εικόνα δεν είναι κόκκινο, τότε ο δρυοκολάπτης συμπεραίνει ότι η απάντηση MLLM περιέχει παραισθήσεις
  4. Ο δρυοκολάπτης δημιουργεί τον ακόλουθο οπτικό ισχυρισμό: “Δεν υπάρχει κόκκινο αυτοκίνητο στην εικόνα”
  5. Ο δρυοκολάπτης χρησιμοποιεί ένα LLM για να διορθώσει την απάντηση MLLM αντικαθιστώντας τη φράση “κόκκινο αυτοκίνητο” με “χωρίς κόκκινο αυτοκίνητο”


Διορθώθηκε η απάντηση MLLM

: Δεν υπάρχει κόκκινο αυτοκίνητο στην εικόνα.

Τι είναι ο δρυοκολάπτης και πώς θεραπεύει την ψευδαίσθηση AI;, Τι είναι ο δρυοκολάπτης και πώς θεραπεύει την ψευδαίσθηση AI;, TechWar.gr


Το πλαίσιο του Δρυοκολάπτη αποτελείται από πέντε δευτερεύουσες εργασίες για τη βελτίωση των απαντήσεων MLLM και τη διόρθωση των παραισθήσεων


(

Πίστωση εικόνας

)

Η μελέτη αξιολογεί την απόδοση διαφορετικών μοντέλων στην εργασία POPE και παρουσιάζει τα αποτελέσματα σε διαφορετικές ρυθμίσεις, συμπεριλαμβανομένων των τυχαίων, δημοφιλών και αντίθετων. Η προτεινόμενη μέθοδος διόρθωσης, Woodpecker, δείχνει σταθερά κέρδη στις περισσότερες μετρήσεις για τις βασικές γραμμές. Στις πιο απαιτητικές ρυθμίσεις, τα MLLM εμφανίζουν υποβάθμιση της απόδοσης, ενώ το Woodpecker παραμένει σταθερό και βελτιώνει την ακρίβεια των βασικών γραμμών. Τα πειράματα στο MME καλύπτουν αξιολόγηση παραισθήσεων τόσο σε επίπεδο αντικειμένου όσο και σε επίπεδο χαρακτηριστικών.

Η προτεινόμενη μέθοδος διόρθωσης Woodpecker βελτιώνει την απόδοση των MLLM στην αξιολόγηση σε επίπεδο αντικειμένου και σε επίπεδο χαρακτηριστικών. Ιδιαίτερα υπερέχει στην απάντηση σε πιο δύσκολα ερωτήματα μέτρησης και μειώνει τις παραισθήσεις σε επίπεδο χαρακτηριστικών. Η εισαγωγή του ανιχνευτή ανοιχτού σετ ενισχύει τις πτυχές ύπαρξης και μέτρησης, ενώ το μοντέλο VQA βελτιώνει το χρωματικό μέρος. Το πλήρες πλαίσιο, που συνδυάζει και τις δύο ενότητες, επιτυγχάνει τα καλύτερα αποτελέσματα. Η μέθοδος διόρθωσης αντιμετωπίζει αποτελεσματικά τις παραισθήσεις στις απαντήσεις MLLM, με αποτέλεσμα πιο ακριβείς και λεπτομερείς απαντήσεις.

Η έλλειψη σχετικών εργασιών στη μέτρηση της συμπεριφοράς διόρθωσης αντιμετωπίζεται με την ανάλυση των αποτελεσμάτων μετά τη διόρθωση σε τρεις ενότητες: ακρίβεια, παράλειψη και λανθασμένη διόρθωση. Τα αποτελέσματα του «προεπιλεγμένου» μοντέλου στο MME δείχνουν ακρίβεια 79,2%, με χαμηλά ποσοστά παραλείψεων και λανθασμένων διορθώσεων. Αυτό το πλαίσιο που βασίζεται στη διόρθωση προτείνεται ως μέθοδος χωρίς εκπαίδευση για τον μετριασμό των παραισθήσεων σε MLLM και μπορεί εύκολα να ενσωματωθεί σε διαφορετικά μοντέλα. Η αποτελεσματικότητα του πλαισίου αξιολογείται μέσω πειραμάτων σε τρία σημεία αναφοράς και η ελπίδα είναι ότι αυτή η εργασία θα εμπνεύσει νέες προσεγγίσεις για την αντιμετώπιση των παραισθήσεων σε MLLM.

Οι οντότητες που εμπλέκονται στην ποινή καθορίζονται προκειμένου να επαληθευτεί η πραγματικότητα της ποινής. Θα πρέπει να τεθούν ερωτήσεις σχετικά με βασικά χαρακτηριστικά των οντοτήτων, όπως χρώματα και ενέργειες. Θα πρέπει να αποφεύγονται σύνθετοι συλλογισμοί και σημασιολογικά παρόμοιες ερωτήσεις. Ερωτήματα σχετικά με τις πληροφορίες θέσης των οντοτήτων μπορούν να υποβληθούν χρησιμοποιώντας ερωτήσεις τύπου «where». Αβέβαια ή εικαστικά μέρη της πρότασης δεν πρέπει να αμφισβητούνται. Εάν δεν υπάρχουν ερωτήσεις, τότε θα πρέπει να βγει “Καμία”.

Γιατί όλη η ταλαιπωρία;

Τα MLMM έχουν τη δυνατότητα να προσφέρουν ένα ευρύ φάσμα εργασιών που δεν είναι δυνατές για τα παραδοσιακά γλωσσικά μοντέλα, όπως η σύνοψη εικόνων, η σύνοψη βίντεο και η απάντηση ερωτήσεων με πολλαπλή εισαγωγή.

Ωστόσο, τα MLLM δεν είναι τέλεια και μερικές φορές μπορεί να παράγουν ανακριβή αποτελέσματα. Μερικές από τις πιο κοινές ανακρίβειες των MLLM περιλαμβάνουν:


  • Πραγματικά λάθη

    : Τα MLLM μπορούν μερικές φορές να δημιουργήσουν απαντήσεις που περιέχουν πραγματικά σφάλματα. Αυτό μπορεί να συμβεί όταν το MLLM δεν έχει εκπαιδευτεί σε αρκετά δεδομένα ή όταν τα δεδομένα στα οποία εκπαιδεύεται δεν είναι ακριβή

  • Ψευδαισθήσεις

    : Τα MLLM μπορούν επίσης να δημιουργήσουν απαντήσεις που περιέχουν παραισθήσεις. Αυτό συμβαίνει όταν το MLLM δημιουργεί πληροφορίες που δεν υπάρχουν στα δεδομένα εισόδου. Οι ψευδαισθήσεις μπορεί να προκληθούν από διάφορους παράγοντες, όπως η πολυπλοκότητα της εργασίας, ο όγκος των δεδομένων στα οποία εκπαιδεύεται το MLLM και η ποιότητα των δεδομένων

  • Προκατάληψη

    : Τα MLLM μπορούν επίσης να είναι προκατειλημμένα, αντανακλώντας τις προκαταλήψεις που υπάρχουν στα δεδομένα στα οποία εκπαιδεύονται. Αυτό μπορεί να οδηγήσει σε MLLM που δημιουργούν απαντήσεις που είναι άδικες ή εισάγουν διακρίσεις

Η μεροληψία και τα πραγματικά σφάλματα προκαλούνται κυρίως από ατελείς βάσεις δεδομένων, ενώ οι παραισθήσεις προκαλούνται από σφάλματα στη φάση εργασίας αυτών των μοντέλων. Αυτά τα σφάλματα, τα οποία φαίνεται να είναι αλγοριθμικής προέλευσης, αποτελούν το μεγαλύτερο εμπόδιο για την ενσωμάτωση τεχνολογιών τεχνητής νοημοσύνης στην πραγματική ζωή. Είναι γεγονός ότι η τεχνητή νοημοσύνη θα ανοίξει την πόρτα στην αυτόνομη ζωή που ονειρευόμαστε, αλλά η ασφάλεια και η ακρίβειά της στη χρήση της αποτελούν ακόμα μεγάλη αμφιβολία.

Τι είναι ο δρυοκολάπτης και πώς θεραπεύει την ψευδαίσθηση AI;, Τι είναι ο δρυοκολάπτης και πώς θεραπεύει την ψευδαίσθηση AI;, TechWar.gr


Η ανάπτυξη ακριβών μοντέλων τεχνητής νοημοσύνης είναι ζωτικής σημασίας για την ασφάλεια σε τομείς όπως τα

και ο δρυοκολάπτης υπόσχεται την αντιμετώπιση ανακρίβειων τεχνητής νοημοσύνης


(

Πίστωση εικόνας

)

Για παράδειγμα, τον Οκτώβριο του 2023, ένας οδηγός αυτόματου πιλότου της Tesla ενεπλάκη σε θανατηφόρο ατύχημα στη Φλόριντα. Ο οδηγός χρησιμοποιούσε αυτόματο πιλότο για να κινηθεί σε αυτοκινητόδρομο όταν το αυτοκίνητο συγκρούστηκε με τρακτέρ-ρυμουλκούμενο που διέσχιζε την εθνική οδό. Στο δυστύχημα σκοτώθηκε ο οδηγός του Tesla.

Η Εθνική Υπηρεσία Ασφάλειας Οδικής Κυκλοφορίας (NHTSA) διερευνά το ατύχημα για να προσδιορίσει τα αίτια. Ωστόσο, πιστεύεται ότι το σύστημα Autopilot της Tesla μπορεί να απέτυχε να εντοπίσει το τρακτέρ-ρυμουλκούμενο. Αυτή η αποτυχία θα μπορούσε να οφείλεται σε διάφορους παράγοντες, όπως οι συνθήκες φωτισμού ή η θέση του τρακτέρ-ρυμουλκούμενου που δεν έχει ακόμη εξασφαλίσει πλήρως την ασφάλεια τέτοιων συστημάτων, πρέπει να είμαστε σίγουροι για την ακρίβειά τους.

Είναι απίθανο να λάβουμε τις σωστές οδηγίες από ένα μοντέλο MLLM που παρερμηνεύει τι συμβαίνει γύρω του και δεν είμαστε ακόμη έτοιμοι για τη χρήση παρόμοιων τεχνολογιών σε τομείς όπως η ιατρική, οι μεταφορές και ο σχεδιασμός. Αυτή η λύση που υποσχέθηκε ο Δρυοκολάπτης μπορεί να είναι ένα σημείο καμπής για την τεχνητή νοημοσύνη και την αυτόνομη ζωή μας. Καθώς η τεχνολογία αναπτύσσεται, συνεχίζει να αγγίζει τη ζωή μας και προσπαθούμε να τα κατανοήσουμε όλα αυτά όσο περισσότερο μπορούμε. Ας δούμε που θα μας πάει όλους το μέλλον.




Πίστωση επιλεγμένης εικόνας


:

Emre Çıtak/DALL-E 3

.


VIA:

DataConomy.com


Leave A Reply



Cancel Reply

Your email address will not be published.