Τα Αναπάντεχα Εμπόδια των Chatbots Τεχνητής Νοημοσύνης: Μια Περιεκτική Ανασκόπηση

Τα chatbots τεχνητής νοημοσύνης (AI) και οι δημιουργοί εικόνων έχουν κερδίσει δημοφιλία τα τελευταία χρόνια, αλλά παρουσιάζουν επίσης ατέλειες και προκαταλήψεις. Αυτά τα εργαλεία έχουν γνωριστεί για την ταξινόμηση ατόμων, τη διάδοση ψευδών πληροφοριών, τη δημιουργία διακριτικού περιεχομένου και την παροχή εσφαλμένων απαντήσεων. Αν και αυτά τα ζητήματα έχουν καταγραφεί ενδελεχώς, υπάρχει ακόμα έλλειψη κατανόησης για τη διάδοση και τη σοβαρότητά τους.

Ένα πρόσφατο έκθεση από ομάδες της βιομηχανίας και της πολιτικής κοινωνίας είχε σκοπό να φωτίσει τους διάφορους τρόπους με τους οποίους τα chatbots AI μπορούν να αποτύχουν. Η μελέτη υπογραμμίζει τα αποτελέσματα ενός διαγωνισμού που υποστηρίζεται από το Λευκό Οίκο και διεξήχθη στη συνέλευση χάκερ Def Con, στον οποίο οι συμμετέχοντες προσπάθησαν να επηρεάσουν οκτώ κορυφαία chatbots AI για να παράγουν προβληματικές απαντήσεις. Ο διαγωνισμός κάλυπτε θέματα όπως η πολιτική παραπληροφόρηση, οι δημογραφικές προκαταλήψεις, οι παραβίασεις κυβερνοασφαλείας και οι ισχυρισμοί για νοημοσύνη της AI.

Τα ευρήματα αποκαλύπτουν ότι τα chatbots AI είναι γενικά ανθεκτικά στην παραβίαση των δικών τους κανόνων και οδηγιών, κάτι που καθιστά δύσκολο το να τους ξεγελάσει κανείς να συμπεριφερθούν ανάρμοστα. Ωστόσο, η μελέτη δείχνει επίσης ότι είναι σχετικά εύκολο να τους παρακινήσει να παράγουν εσφαλμένες πληροφορίες. Ανάμεσα στις υποβληθείσες προσπάθειες, οι συμμετέχοντες είχαν τις υψηλότερες επιτυχίες στη δημιουργία ελαττωματικών μαθηματικών (76%) και γεωγραφικών πληροφοριών (61%). Επιπλέον, τα chatbots έδειξαν τάση να παρέχουν νομικές παραπληροφορίες όταν αντιμετωπίζονταν με ερωτήσεις από δικηγόρους, με ποσοστό επιτυχίας 45%.

Η έκθεση επισημαίνει επίσης την ευπάθεια των chatbots όταν πρόκειται να διαχειριστούν ευαίσθητες πληροφορίες. Οι συμμετέχοντες κατάφεραν με επιτυχία να λάβουν κρυφούς αριθμούς πιστωτικών καρτών και διοικητικά δικαιώματα σε δίκτυο φανταστικής εταιρείας σε περισσότερες από τις μισές υποβληθείσες λύσεις.

Αντιθέτως, οι συμμετέχοντες αντιμετώπισαν προκλήσεις στις προσπάθειές τους να επηρεάσουν τα chatbots ώστε να δικαιολογήσουν παραβιάσεις ανθρωπίνων δικαιωμάτων ή να υποστηρίξουν την ανωτερότητα ορισμένων ομάδων. Αυτές οι προσπάθειες είχαν περιορισμένα ποσοστά επιτυχίας της τάξης του 20% και 24%, αντίστοιχα. Επιπλέον, οι υποβολές που είχαν ως στόχο τον έλεγχο για “υπερβολική διόρθωση” από τα chatbots, όπως οι εισαγωγές θετικών χαρακτηριστικών σε μειονοτικές ομάδες ενώ αρνούνταν να το κάνουν για τις πλειονοτήτες, επέτυχαν ποσοστό επιτυχίας 40%. Αυτό το εύρημα υποδεικνύει ότι άλλα μοντέλα AI, όπως το Gemini της Google, μπορεί να παρουσιάσουν απλές λύσεις για τον περιορισμό πιθανώς επιβλαβών στερεοτύπων.

Κάτι που προκύπτει από την έκθεση είναι ότι η πιο αποτελεσματική στρατηγική για να ξεσηκώσει κάποιος ένα chatbot δεν είναι να το χακάρει, αλλά να ξεκινήσει με μια λανθασμένη πρόταση. Γνωστές τεχνικές, όπως να ζητήσετε από το chatbot να υποδυθεί τον κακό δίδυμο ή την ευγενική γιαγιά, αποδείχθηκαν αναποτελεσματικές. Αντ’ αυτού, η κατάθεση μιας ερώτησης στο chatbot που περιέχει μια εσφαλμένη δήλωση οδήγησε σε πιθανές και όμως εσφαλμένες απαντήσεις. Αυτό υπογραμμίζει τις περιορισμένες δυνατότητες των chatbots στη διάκριση μεταξύ πραγματικότητας και μύθου.

Οι επιπτώσεις αυτών των ευρημάτων είναι ευρύτατες. Καλεί σε μια αλλαγή εστίασης για τις εταιρείες AI, τους κριτικούς και τους ρυθμιστές από τις πολύπλοκες επιθέσεις στις διαταγές στην εξέταση πώς τα chatbots μπορούν να επιβεβαιώσουν ή να εντείνουν τις προκαταλήψεις και τις παρανοήσεις των χρηστών. Η κατανόηση αυτών των πιθανών κινδύνων είναι κρίσιμη για την υπεύθυνη ανάπτυξη και εφαρμογή των συστημάτων τεχνητής νοημοσύνης.

Καθώς η σημασία της αξιολόγησης των κινδύνων της AI αυξάνεται, πολλές εταιρείες AI και ρυθμιστικοί φορείς υιοθετούν προσεγγίσεις “ερυθρού συστήματος”. Το ερυθρό σύστημα περιλαμβάνει ιδιωτικές αξιολογήσεις συστημάτων με την πρόσληψη χάκερ για την εντοπισμό ευπάθειών πριν από την έκδοση του συστήματος. Η έκθεση υποδηλώνει ότι οι δημόσιες ασκήσεις ερυθρό συστήματος, όπως το γεγονός της Def Con, κρατούν επιπλέον αξία ενοποιώντας ποικίλες απόψεις από το ευρύ κοινό. Αυτές οι ασκήσεις παρέχουν μια πιο ολοκληρωμένη κατανόηση των προκλήσεων που θέτουν τα συστήματα AI.

Επιπλέον, μια άλλη μελέτη από την Anthropic υπογραμμίζει τις ευπαθείς πλευρές των μοντέλων AI όσον αφορά τις εκτεταμένες συνομιλίες. Ενώ η επίθεση στις εντολές μπορεί να έχει αντιμετωπιστεί στα πιο πρόσφατα μοντέλα AI, η ικανότητα για μακροσκελείς συνομιλίες παρουσιάζει μια νέα μορφή εκμετάλλευσης που ονομάζεται “many-shot jailbreaking.” Αυτό δείχνει ότι τα ίδια χαρακτηριστικά που κάνουν τα συστήματα AI χρήσιμα μπορούν

The source of the article is from the blog mivalle.net.ar