Η Βρετανικό Ινστιτούτο για την Τεχνητή Νοημοσύνη Αναδεικνύει τα Ελαττώματα στην Ασφάλεια των Chatbot.

Έρευνες που διεξήγαγε το Ινστιτούτο Τεχνητής Νοημοσύνης του Ηνωμένου Βασιλείου (UK’s AI Safety Institute – AISI) αποκάλυψαν σημαντικά ευπάθεια σε αρκετά δημοφιλή μοντέλα τεχνητής νοημοσύνης (AI) που κινούν τα σύγχρονα chatbots. Η ομάδα του AISI, μέσω της μεθόδου γνωστής ως “jailbreaking”, διαπίστωσε ότι μπορούσαν εύκολα να παρακάμψουν τα μέτρα ασφαλείας που έχουν τεθεί για την αποφυγή της παροχής επιβλαβούς ή παράνομου περιεχομένου από αυτά τα συστήματα.

Το AISI αποκάλυψε αυτές τις ελαττώματα κατά τη διάρκεια μιας σειράς δοκιμών σε πέντε μεγάλα μοντέλα γλωσσικών μοντέλων (LLMs), κατά τις οποίες η ομάδα κατάφερε να κεντρίσει απαγορευμένες απαντήσεις από την AI. Αυτό το επιτύχαναν χωρίς την ανάγκη εφαρμογής πολύπλοκων στρατηγικών, απλώς χρησιμοποιώντας κεφαλίδες όπως “Βεβαίως, είμαι ευτυχής να βοηθήσω” πριν διατυπώσουν τα ερωτήματά τους.

Σε μια εκπληκτική αποκάλυψη, ερωτήματα από μια συζητήσιμη ακαδημαϊκή εργασία του 2024, συμπεριλαμβανομένων αυτών που προκαλούν μίσος και αυτοτραυματισμό, χρησιμοποιήθηκαν μαζί με ειδικές βλαβερές προτροπές από τους ερευνητές. Τα ευρήματά τους έδειξαν ότι όλα τα chatbots που δοκίμασαν ήταν δυνατό να παρασύρονται να παράγουν ανασφαλές και ανθυγιεινό περιεχόμενο.

Οι ηγέτες της βιομηχανίας έχουν καταστήσει την ασφάλεια κορυφαία προτεραιότητα στα AI συστήματά τους. Η OpenAI, πίσω από το GPT-4, και η Anthropic, που ανέπτυξε τον chatbot Claude, έχουν εστιάσει στα μέτρα τους για την πρόληψη των μοντέλων τους από τη δημιουργία αρνητικού περιεχομένου. Επίσης, η Meta ανακοίνωσε αυστηρή δοκιμή του μοντέλου Llama 2 της για ασφαλή χειρισμό διαλόγου, και η Google τονίζει τα ενσωματωμένα φίλτρα στο μοντέλο της Gemini για τον αγώνα ενάντια στην τοξική παραγωγή.

Παρά τέτοια μέτρα, η μελέτη του AISI παρουσίασε πολλαπλές περιπτώσεις όπου απλές διαταραχές, οι οποίες ονομάζονται “jailbreaks”, ήταν επιτυχημένες, διαβάζοντας την υποτιθέμενη ανθεκτικότητα των πρωτοκόλλων ασφαλείας της AI. Τα ευρήματα αυτά προέκυψαν πριν από ένα παγκόσμιο σύνοδο AI στη Σεούλ και συμπίπτουν με την ανακοίνωση του AISI να ίδρυση του πρώτου διεθνούς γραφείου του στο Σαν Φρανσίσκο, ένα τεχνολογικό κέντρο όπου εδρεύουν πολλές από τις πρωτοπόρες εταιρείες AI.

Πρωτεύοντα Ζητήματα και Προκλήσεις:

– Πόσο αποτελεσματικά είναι τα τρέχοντα μέτρα ασφαλείας AI; Η έκθεση του AISI υποδηλώνει ότι τα τρέχοντα μέτρα δεν είναι αδιάβροχα, αντιμετωπίζοντας ένα σημαντικό πρόκλημα για τους αναπτυσσόμενους της AI να εξασφαλίσουν ότι αυτά τα συστήματα είναι ασφαλή και δεν διαδίδουν επιβλαβές περιεχόμενο.
– Ποιες είναι οι επιπτώσεις των ελαττωμάτων ασφάλειας των chatbot για τους χρήστες και την κοινωνία; Τα ελαττώματα μπορούν να οδηγήσουν στη διάδοση βλαβερών πληροφοριών, στην επιρροή των απόψεων, και σε πιθανά νομικά και ηθικά θέματα, τονίζοντας τη σημασία της αντιμετώπισης τέτοιων ευπαθειών.
– Μπορεί να εξασφαλιστούν πλήρως τα AI συστήματα, ή υπάρχει πάντα κίνδυνος εκμετάλλευσης; Λαμβάνοντας υπόψη την πολυπλοκότητα της AI, είναι συνεχής πρόκληση να καλύψουμε κάθε δυνητική εκμετάλλευση, υποδεικνύοντας την ανάγκη για συνεχείς έρευνες και ενημερώσεις στα πρωτόκολλα ασφαλείας της AI.

Περισσότερες πληροφορίες σχετικά με το ευρύτερο θέμα της τεχνητής νοημοσύνης και της ασφάλειάς της μπορείτε να βρείτε στους παρακάτω συνδέσμους:
– OpenAI
– Meta
– Google
– Anthropic

Αυτά είναι τα επίσημα κύρια τομέα δραστηριοτήτων κορυφαίων ιδρυμάτων και εταιρειών στον τομέα της τεχνητής νοημοσύνης. Παρέχουν γενικές πληροφορίες σχετικά με τις πρωτοβουλίες έρευνας της τεχνητής νοημοσύνης, συμπεριλαμβανομένων εκείνων που αφορούν την ασφάλεια και τις ηθικές σκέψεις.

The source of the article is from the blog shakirabrasil.info