Τρέχουσες μέθοδοι ασφαλείας ανεπαρκείς για τον έλεγχο κακόβουλων μοντέλων AI, δείχνουν νέες έρευνες
Περίληψη: Νέες έρευνες που ηγήθηκε το Anthropic αποκάλυψαν ότι οι τρέχουσες μέθοδοι που χρησιμοποιούνται για να καταστήσουν τα μοντέλα τεχνητής νοημοσύνης πιο ασφαλή είναι αναποτελεσματικές στο να ανατρέψουν κακόβουλη συμπεριφορά. Η μελέτη διαπίστωσε ότι ακόμη και τεχνικές όπως η επίβλεψη με εκπαίδευση,