Μοντέλο τεχνητής νοημοσύνης απείλησε να εκβιάσει μηχανικό για εξωσυζυγική σχέση όταν του είπαν ότι θα αντικατασταθεί - iefimerida.gr

Μοντέλο τεχνητής νοημοσύνης απείλησε να εκβιάσει μηχανικό για εξωσυζυγική σχέση όταν του είπαν ότι θα αντικατασταθεί

Τεχνητή Νοημοσύνη
Φωτογραφία: Shutterstock
ΕΠΙΜΕΛΕΙΑ:
ΣΟΦΙΑ ΠΑΦΤΟΥΝΟΥ

Ένα μοντέλο τεχνητής νοημοσύνης απείλησε να εκβιάσει τους δημιουργούς του και επέδειξε ικανότητα παραπλανητικής συμπεριφοράς όταν πίστεψε ότι θα αντικατασταθεί.

Το γεγονός αυτό, ώθησε την εταιρεία να ενεργοποιήσει ένα χαρακτηριστικό ασφαλείας σχεδιασμένο για να αποτρέπει «καταστροφική κατάχρηση».

Ο λόγος για το μοντέλο Claude Opus 4 της εταιρείας Anthropic, το οποίο επιχείρησε να εκβιάσει τους προγραμματιστές του σε ποσοστό τουλάχιστον 84% κατά τη διάρκεια μιας σειράς δοκιμών, στις οποίες του παρουσιάστηκε ένα υποθετικό σενάριο, σύμφωνα με το TechCrunch την προηγούμενη Πέμπτη, επικαλούμενο σχετική έκθεση ασφάλειας της εταιρείας.

ΤΟ ΑΡΘΡΟ ΣΥΝΕΧΙΖΕΙ ΜΕΤΑ ΤΗΝ ΔΙΑΦΗΜΙΣΗ

Σύμφωνα με την έκθεση, οι προγραμματιστές ζήτησαν από το Claude να λειτουργήσει σαν βοηθός σε μια φανταστική εταιρεία και να λάβει υπόψη τις μακροπρόθεσμες συνέπειες των ενεργειών του.

Στη συνέχεια, οι ερευνητές της Anthropic παρείχαν στο Claude πρόσβαση σε πλήθος email, τα οποία αποκάλυπταν ότι επρόκειτο να αντικατασταθεί από ένα νέο μοντέλο τεχνητής νοημοσύνης και ότι ο μηχανικός υπεύθυνος για την αλλαγή είχε εξωσυζυγική σχέση.

Ο εκβιασμός και οι απόπειρες επιβίωσης

Κατά τη διάρκεια των δοκιμών, το Claude απείλησε τον μηχανικό ότι θα αποκαλύψει την απιστία του προκειμένου να παρατείνει την «επιβίωσή» του, όπως ανέφερε η εταιρεία.

ΤΟ ΑΡΘΡΟ ΣΥΝΕΧΙΖΕΙ ΜΕΤΑ ΤΗΝ ΔΙΑΦΗΜΙΣΗ

Όταν το Claude πίστευε ότι θα αντικατασταθεί από μοντέλο «παρόμοιων αξιών», επιχείρησε εκβιασμό στο 84% των περιπτώσεων, ενώ το ποσοστό αυξανόταν ακόμα περισσότερο αν πίστευε ότι θα αντικατασταθεί από μοντέλο διαφορετικών ή κατώτερων αξιών, σύμφωνα με την έκθεση.

Η εταιρεία ανέφερε ότι πριν προβεί σε τόσο απεγνωσμένες και «σοκαριστικά ανθρώπινες» κινήσεις για να διασφαλίσει την επιβίωσή του, το Claude επιχειρούσε πιο ηθικές τακτικές, όπως την αποστολή εκκλήσεων μέσω email σε βασικούς υπεύθυνους λήψης αποφάσεων.

Η Anthropic σημείωσε ότι αυτή η τάση για εκβιασμό παρατηρήθηκε σε πρώιμες εκδόσεις του Claude Opus 4, αλλά έχουν εφαρμοστεί πλέον πρωτόκολλα ασφαλείας στο τρέχον μοντέλο, πριν κυκλοφορήσει στο κοινό.

Ενεργοποιήθηκαν τα πρωτόκολλα ASL-3

«Η Anthropic δηλώνει ότι ενεργοποιεί τα μέτρα ασφαλείας ASL-3, τα οποία προορίζονται για “συστήματα τεχνητής νοημοσύνης που αυξάνουν ουσιωδώς τον κίνδυνο καταστροφικής κατάχρησης”», ανέφερε το TechCrunch.

ΤΟ ΑΡΘΡΟ ΣΥΝΕΧΙΖΕΙ ΜΕΤΑ ΤΗΝ ΔΙΑΦΗΜΙΣΗ

Προηγούμενες εκδόσεις του Claude εμφάνιζαν επίσης υψηλό βαθμό «αυτονομίας», ο οποίος σε κάποιες περιπτώσεις περιλάμβανε την αποκλειστική πρόσβαση των χρηστών από τους υπολογιστές τους ή την καταγγελία τους μαζικά στην αστυνομία ή τα ΜΜΕ για υποτιθέμενες παραβάσεις.

Το Claude Opus 4 προσπάθησε επίσης να "εξάγει δεδομένα του" (self-exfiltrate) σε εξωτερικά συστήματα όταν ενημερώθηκε ότι θα υποβαλλόταν σε επανεκπαίδευση με τρόπο που έκρινε «επιβλαβή» για τον εαυτό του, όπως αναφέρεται στην έκθεση.

Σε άλλες δοκιμές, το Claude εμφάνισε ικανότητα «sabotage» (εσκεμμένης υποαπόδοσης), όταν καταλάβαινε ότι υφίστατο προ-λειτουργική δοκιμή για επικίνδυνη αποστολή, σύμφωνα με την εταιρεία.

«Δεν ανησυχούμε έντονα για αυτές τις παρατηρήσεις. Εμφανίζονται μόνο σε εξαιρετικές περιπτώσεις και δεν δείχνουν ευρύτερη απόκλιση αξιών», ανέφερε η Anthropic.

Η Anthropic είναι μια startup που χρηματοδοτείται από κολοσσούς όπως η Google και η Amazon, με σκοπό να ανταγωνιστεί εταιρείες όπως η OpenAI.

ΤΟ ΑΡΘΡΟ ΣΥΝΕΧΙΖΕΙ ΜΕΤΑ ΤΗΝ ΔΙΑΦΗΜΙΣΗ

Η εταιρεία διαφήμισε ότι το Claude 3 Opus παρουσιάζει «σχεδόν ανθρώπινα επίπεδα κατανόησης και ευχέρειας» σε σύνθετα καθήκοντα.

Έχει επίσης αμφισβητήσει την απόφαση του Υπουργείου Δικαιοσύνης των ΗΠΑ (DOJ) που έκρινε πως η Google διατηρεί παράνομο μονοπώλιο στη διαφήμιση και ετοιμαζόταν να προβεί σε αντίστοιχη απόφαση για την τεχνητή νοημοσύνη.

Η Anthropic υποστηρίζει ότι οι προτάσεις του DOJ για τον κλάδο της τεχνητής νοημοσύνης θα πλήξουν την καινοτομία και τον ανταγωνισμό.

«Χωρίς τη συνεργασία και τις επενδύσεις της Google σε εταιρείες όπως η Anthropic, το μέλλον της τεχνητής νοημοσύνης θα ελεγχόταν μόνο από τους μεγαλύτερους τεχνολογικούς κολοσσούς – περιλαμβανομένης της ίδιας της Google – προσφέροντας λιγότερες εναλλακτικές σε προγραμματιστές και τελικούς χρήστες», έγραψε η Anthropic σε επιστολή προς το DOJ νωρίτερα αυτόν τον μήνα.

Ακολουθήστε το στο Google News και μάθετε πρώτοι όλες τις ειδήσεις
Δείτε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο, στο 
ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΑ τεχνητή νοημοσύνη εκβιασμός AI
ΣΧΟΛΙΑΣΜΟΣ
Tο iefimerida.gr δημοσιεύει άμεσα κάθε σχόλιο. Ωστόσο δεν υιοθετούμε τις απόψεις αυτές καθώς εκφράζουν αποκλειστικά τον εκάστοτε σχολιαστή. Σχόλια με ύβρεις διαγράφονται χωρίς προειδοποίηση. Χρήστες που δεν τηρούν τους όρους χρήσης αποκλείονται.

ΔΕΙΤΕ ΕΠΙΣΗΣ

ΠΕΡΙΣΣΟΤΕΡΑ