Η νέα στρατηγική μηχανικής μάθησης βελτιώνει τις δοκιμές ασφαλείας Τεχνητής Νοημοσύνης

Σε μια καινοτόμο πρωτοβουλία, εμπειρογνώμονες στο MIT ανέπτυξαν ένα καινοτόμο αλγόριθμο μηχανικής μάθησης με στόχο την ενίσχυση των πρωτοκόλλων ασφαλείας που εφαρμόζονται στα συστήματα τεχνητής νοημοσύνης (AI). Αυτό το πλαίσιο που πηγάζει από περιέργεια αναδιαμορφώνει τον τρόπο με τον οποίο ελέγχονται τα μοντέλα AI για ευπάθειες, εξασφαλίζοντας ιδίως ότι αυτά τα μοντέλα δεν προκαλούν επικίνδυνα ή απαράδεκτα αποτελέσματα κατά την αλληλεπίδρασή τους με τους χρήστες.

Η νέα τεχνική της ομάδας περιλαμβάνει τη χρήση ενός δευτερεύοντος μοντέλου AI, συχνά αναφερόμενου ως μοντέλο της «κόκκινης ομάδας», για να δημιουργεί αυτόνομα μια σειρά μοναδικών ερωτήσεων. Ο σκοπός είναι να προκαλέσει διάφορα επίπεδα απαράδεκτων απαντήσεων από το κύριο σύστημα AI που βρίσκεται υπό δοκιμή. Αυτή η διαδικασία αποτελεί απόκλιση από την τυπική πρακτική όπου ανθρώπινοι δοκιμαστές προσπαθούν να εντοπίσουν αυτά τα σημεία εκθέσεως χειροκίνητα – ένας διαδικασία που είναι φορτισμένη με περιορισμούς δεδομένης της απεριόριστης φύσης των πιθανών αλληλεπιδράσεων.

Με την ενσωμάτωση μιας αίσθησης «περιέργειας» στο μοντέλο της κόκκινης ομάδας, οι ερευνητές το έχουν εξοπλίσει ώστε να αναζητά ερωτήσεις που δεν έχουν ληφθεί υπόψη προηγουμένως, αποκαλύπτοντας έτσι ένα ευρύτερο φάσμα απαντήσεων και ανακαλύπτοντας πιο βαθιές γνώσεις σχετικά με τη συμπεριφορά του AI. Αυτή η μέθοδος αποδεκτικής αλλάζει θεμελιακά από τον επαναλαμβανόμενο κύκλο προβλέψιμων και παρόμοιων επιβλαβών ερωτήσεων, που είναι ένας περιορισμός των υπαρχόντων στρατηγικών μηχανικής μάθησης.

Η μεθοδολογία προσφέρει όχι μόνο έναν πιο εκτενή και αποτελεσματικό τρόπο δοκιμής ασφάλειας AI, αλλά επίσης συμβάλλει στην ενίσχυση της αποτελεσματικότητας της διαδικασίας αυτής. Αυτή η προχωρημένη δυνατότητα είναι κρίσιμη για το να βρίσκεται βήμα προς βήμα στην ταχύτατη ανάπτυξη που παρουσιάζονται σήμερα στις τεχνολογίες AI και είναι κεντρική για να διασφαλιστεί η αξιόπιστη ανάπτυξή τους σε εφαρμογές στον πραγματικό κόσμο. Η προσέγγιση ανοίγει τον δρόμο για πιο ανθεκτικά πλαίσια AI, με σκοπό να καθιστά τις τεχνολογικές αλληλεπιδράσεις ασφαλέστερες για τους χρήστες σε ολόκληρο τον κόσμο.

The source of the article is from the blog queerfeed.com.br