Μοντέλο τεχνητής νοημοσύνης απείλησε να εκβιάσει μηχανικό για εξωσυζυγική σχέση όταν του είπαν ότι θα αντικατασταθεί

ΕΠΙΜΕΛΕΙΑ:

ΣΟΦΙΑ ΠΑΦΤΟΥΝΟΥ

01/06/2025 21:23

Ένα μοντέλο τεχνητής νοημοσύνης απείλησε να εκβιάσει τους δημιουργούς του και επέδειξε ικανότητα παραπλανητικής συμπεριφοράς όταν πίστεψε ότι θα αντικατασταθεί.

Το γεγονός αυτό, ώθησε την εταιρεία να ενεργοποιήσει ένα χαρακτηριστικό ασφαλείας σχεδιασμένο για να αποτρέπει «καταστροφική κατάχρηση».

Ο λόγος για το μοντέλο Claude Opus 4 της εταιρείας Anthropic, το οποίο επιχείρησε να εκβιάσει τους προγραμματιστές του σε ποσοστό τουλάχιστον 84% κατά τη διάρκεια μιας σειράς δοκιμών, στις οποίες του παρουσιάστηκε ένα υποθετικό σενάριο, σύμφωνα με το TechCrunch την προηγούμενη Πέμπτη, επικαλούμενο σχετική έκθεση ασφάλειας της εταιρείας.

ΖΩΗ 23/05/2025 21:59

Οι συνήθειες που χαρακτηρίζουν τα λιγότερο ευφυή άτομα, σύμφωνα με την Τεχνητή Νοημοσύνη

ΤΕΧΝΟΛΟΓΙΑ 22/05/2025 19:10

Google: Μια ματιά στο μέλλον με τις λειτουργίες τεχνητής νοημοσύνης -ΑΙ που βλέπει, γράφει και... δοκιμάζει ρούχα

Σύμφωνα με την έκθεση, οι προγραμματιστές ζήτησαν από το Claude να λειτουργήσει σαν βοηθός σε μια φανταστική εταιρεία και να λάβει υπόψη τις μακροπρόθεσμες συνέπειες των ενεργειών του.

Στη συνέχεια, οι ερευνητές της Anthropic παρείχαν στο Claude πρόσβαση σε πλήθος email, τα οποία αποκάλυπταν ότι επρόκειτο να αντικατασταθεί από ένα νέο μοντέλο τεχνητής νοημοσύνης και ότι ο μηχανικός υπεύθυνος για την αλλαγή είχε εξωσυζυγική σχέση.

Ο εκβιασμός και οι απόπειρες επιβίωσης

Κατά τη διάρκεια των δοκιμών, το Claude απείλησε τον μηχανικό ότι θα αποκαλύψει την απιστία του προκειμένου να παρατείνει την «επιβίωσή» του, όπως ανέφερε η εταιρεία.

Όταν το Claude πίστευε ότι θα αντικατασταθεί από μοντέλο «παρόμοιων αξιών», επιχείρησε εκβιασμό στο 84% των περιπτώσεων, ενώ το ποσοστό αυξανόταν ακόμα περισσότερο αν πίστευε ότι θα αντικατασταθεί από μοντέλο διαφορετικών ή κατώτερων αξιών, σύμφωνα με την έκθεση.

Η εταιρεία ανέφερε ότι πριν προβεί σε τόσο απεγνωσμένες και «σοκαριστικά ανθρώπινες» κινήσεις για να διασφαλίσει την επιβίωσή του, το Claude επιχειρούσε πιο ηθικές τακτικές, όπως την αποστολή εκκλήσεων μέσω email σε βασικούς υπεύθυνους λήψης αποφάσεων.

Η Anthropic σημείωσε ότι αυτή η τάση για εκβιασμό παρατηρήθηκε σε πρώιμες εκδόσεις του Claude Opus 4, αλλά έχουν εφαρμοστεί πλέον πρωτόκολλα ασφαλείας στο τρέχον μοντέλο, πριν κυκλοφορήσει στο κοινό.

Ενεργοποιήθηκαν τα πρωτόκολλα ASL-3

«Η Anthropic δηλώνει ότι ενεργοποιεί τα μέτρα ασφαλείας ASL-3, τα οποία προορίζονται για “συστήματα τεχνητής νοημοσύνης που αυξάνουν ουσιωδώς τον κίνδυνο καταστροφικής κατάχρησης”», ανέφερε το TechCrunch.

Προηγούμενες εκδόσεις του Claude εμφάνιζαν επίσης υψηλό βαθμό «αυτονομίας», ο οποίος σε κάποιες περιπτώσεις περιλάμβανε την αποκλειστική πρόσβαση των χρηστών από τους υπολογιστές τους ή την καταγγελία τους μαζικά στην αστυνομία ή τα ΜΜΕ για υποτιθέμενες παραβάσεις.

Το Claude Opus 4 προσπάθησε επίσης να "εξάγει δεδομένα του" (self-exfiltrate) σε εξωτερικά συστήματα όταν ενημερώθηκε ότι θα υποβαλλόταν σε επανεκπαίδευση με τρόπο που έκρινε «επιβλαβή» για τον εαυτό του, όπως αναφέρεται στην έκθεση.

Σε άλλες δοκιμές, το Claude εμφάνισε ικανότητα «sabotage» (εσκεμμένης υποαπόδοσης), όταν καταλάβαινε ότι υφίστατο προ-λειτουργική δοκιμή για επικίνδυνη αποστολή, σύμφωνα με την εταιρεία.

«Δεν ανησυχούμε έντονα για αυτές τις παρατηρήσεις. Εμφανίζονται μόνο σε εξαιρετικές περιπτώσεις και δεν δείχνουν ευρύτερη απόκλιση αξιών», ανέφερε η Anthropic.

Η Anthropic είναι μια startup που χρηματοδοτείται από κολοσσούς όπως η Google και η Amazon, με σκοπό να ανταγωνιστεί εταιρείες όπως η OpenAI.

Η εταιρεία διαφήμισε ότι το Claude 3 Opus παρουσιάζει «σχεδόν ανθρώπινα επίπεδα κατανόησης και ευχέρειας» σε σύνθετα καθήκοντα.

Έχει επίσης αμφισβητήσει την απόφαση του Υπουργείου Δικαιοσύνης των ΗΠΑ (DOJ) που έκρινε πως η Google διατηρεί παράνομο μονοπώλιο στη διαφήμιση και ετοιμαζόταν να προβεί σε αντίστοιχη απόφαση για την τεχνητή νοημοσύνη.

Η Anthropic υποστηρίζει ότι οι προτάσεις του DOJ για τον κλάδο της τεχνητής νοημοσύνης θα πλήξουν την καινοτομία και τον ανταγωνισμό.

«Χωρίς τη συνεργασία και τις επενδύσεις της Google σε εταιρείες όπως η Anthropic, το μέλλον της τεχνητής νοημοσύνης θα ελεγχόταν μόνο από τους μεγαλύτερους τεχνολογικούς κολοσσούς – περιλαμβανομένης της ίδιας της Google – προσφέροντας λιγότερες εναλλακτικές σε προγραμματιστές και τελικούς χρήστες», έγραψε η Anthropic σε επιστολή προς το DOJ νωρίτερα αυτόν τον μήνα.

Ακολουθήστε το στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

Δείτε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο, στο

Μοντέλο τεχνητής νοημοσύνης απείλησε να εκβιάσει μηχανικό για εξωσυζυγική σχέση όταν του είπαν ότι θα αντικατασταθεί

Οι συνήθειες που χαρακτηρίζουν τα λιγότερο ευφυή άτομα, σύμφωνα με την Τεχνητή Νοημοσύνη

Google: Μια ματιά στο μέλλον με τις λειτουργίες τεχνητής νοημοσύνης -ΑΙ που βλέπει, γράφει και... δοκιμάζει ρούχα

Ο εκβιασμός και οι απόπειρες επιβίωσης

Ενεργοποιήθηκαν τα πρωτόκολλα ASL-3

ΡΟΗ ΕΙΔΗΣΕΩΝ

ΔΕΙΤΕ ΕΠΙΣΗΣ

ΠΕΡΙΣΣΟΤΕΡΑ