Μελέτη βρίσκει λάθη στις απαντήσεις μοντέλων τεχνητής νοημοσύνης και πλήττει την αξιοπιστία τους.
Μελέτη από ανεξάρτητο ερευνητικό οργανισμό (CMU), που περιλαμβάνει επιστήμονες από την Ελβετία, επιβεβαιώνει ότι τα συστήματα τεχνητής νοημοσύνης δεν είναι απολύτως αξιόπιστα, ιδίως όταν αντιμετωπίζουν πολύπλοκες ερωτήσεις σε εξειδικευμένους τομείς, όπως είναι η νομοθεσία, η ιατρική, η έρευνα και ο προγραμματισμός.
Σύμφωνα με τα ευρήματα, ο ελάχιστος ρυθμός σφαλμάτων (γνωστός και ως «hallucination rate», δηλαδή το ποσοστό ψευδών ή μη τεκμηριωμένων απαντήσεων) για τα πιο ισχυρά μοντέλα ΑΙ ήταν περίπου 30%, ενώ για τα υπόλοιπα μοντέλα ο ρυθμός σφάλματος ξεπερνούσε το 70% σε ερωτήσεις σύνθετες.
Αυτό όμως δείχνει ότι ακόμα και τα πιο προηγμένα συστήματα τεχνητής νοημοσύνης παρουσιάζουν σημαντικές ανακρίβειες, παρά τις θετικές εκτιμήσεις των κατασκευαστών τους.
Πώς γίνεται η αξιολόγηση και γιατί τα λάθη αυξάνονται
Η έρευνα εξέτασε αυτά τα συστήματα χρησιμοποιώντας μία δοκιμή αξιολόγησης που περιελάμβανε 950 αρχικές ερωτήσεις, οι οποίες σχετίζονταν με ζητήματα δικαίου, ιατρικής, έρευνας και προγραμματισμού. Στη συνέχεια έθεσε επιπλέον δύο διαδοχικές ερωτήσεις μετά από κάθε απάντηση, προσομοιώνοντας πολυσύνθετες συνομιλίες. Κατά την ανάλυση, διαπιστώθηκε ότι το ποσοστό ψευδών απαντήσεων αυξάνεται σημαντικά όταν ακολουθούν ερωτήσεις βάσει της ίδιας συζήτησης, πράγμα που υποδηλώνει ότι τα λάθη «επαναλαμβάνονται και ενισχύονται» στις διαδοχικές απαντήσεις.
Οι συνέπειες της χρήσης της AI σε κρίσιμους τομείς
Οι ερευνητές επισημαίνουν ότι, ενώ τα εργαλεία αυτά μπορούν να αποδώσουν σωστά σε απλές ερωτήσεις (π.χ. ονόματα πρωτευουσών ή βασικά γεγονότα), η αξιοπιστία τους σε περιβάλλοντα που απαιτούν ακριβή τεκμηρίωση είναι περιορισμένη.
Το γεγονός ότι ορισμένα μοντέλα υπερβαίνουν το 70% σφαλμάτων σε σύνθετες ερωτήσεις εγείρει ανησυχίες για τη χρήση τους σε επαγγελματικές εφαρμογές, όπως η ανάγνωση νομικών εγγράφων, η παροχή ιατρικών πληροφοριών ή η συγγραφή προγραμμάτων. Επιπλέον, το αποτέλεσμα φέρνει στο τραπέζι ξανά τη συζήτηση για το αν τέτοια συστήματα θα όφειλαν να αναγνωρίζουν την άγνοιά τους και, όταν δεν έχουν αξιόπιστες πληροφορίες, να δηλώνουν «δεν γνωρίζω», αντί να δίνουν παραπλανητικές απαντήσεις.