Πολλοί χρήστες της AI όταν θέλουν μία πραγματικά ακριβή απάντηση από το ChatGPT ή άλλο chatbot, τού απευθύνονται στα αγγλικά.
Υποθέτουν ότι η γλώσσα που κυριαρχεί στο διαδίκτυο και στις βάσεις δεδομένων εκπαίδευσης, θα δώσει ένα πιο σχετικό αποτέλεσμα. Μελέτη από το Πανεπιστήμιο του Μέριλαντ και τη Microsoft ωστόσο ανατρέπει την κοινή πεποίθηση ότι η επικοινωνία με την τεχνητή νοημοσύνη λειτουργεί καλύτερα στα αγγλικά.
Οι ερευνητές αξιολόγησαν την απόδοση μιας σειράς από μοντέλα (όπως τα OpenAI, Gemini, Qwen, Llama κ.ά.) σε 26 γλώσσες και διαπίστωσαν ότι τα αγγλικά κατατάσσονται μόλις έκτα στην κατανόηση σύνθετων, μεγάλων prompts. Στην κορυφή βρέθηκαν τα πολωνικά, τα γαλλικά κατέλαβαν τη δεύτερη θέση, και τα ιταλικά την τρίτη
Οι 10 πιο αποτελεσματικές γλώσσες για επικοινωνία με την Τεχνητή Νοημοσύνη
- Πολωνικά (88%)
- Γαλλικά (87%)
- Ιταλικά (86%)
- Ισπανικά (85%)
- Ρωσικά (84%)
- Αγγλικά (83,9%)
- Ουκρανικά (83,5%)
- Πορτογαλικά (82%)
- Γερμανικά (81%)
- Ολλανδικά (80%)
«Το πείραμά μας απέδωσε κάποια εκπληκτικά και απροσδόκητα αποτελέσματα. Καταρχάς, τα αγγλικά δεν είχαν την καλύτερη απόδοση σε όλα τα μοντέλα. Στην πραγματικότητα, κατέλαβαν την έκτη θέση από τις 26 γλώσσες όταν αξιολογήθηκαν σε μεγάλα κείμενα», σχολίασαν με έκπληξη οι ερευνητές.
Η εξήγηση
Πώς, λοιπόν, τα πολωνικά, μια γλώσσα που φημίζεται για την πολυπλοκότητά της και διαθέτει ένα σύνολο δεδομένων εκπαίδευσης πολύ μικρότερο από τα αγγλικά, είναι η πιο αποτελεσματική; Το Πολωνικό Γραφείο Ευρεσιτεχνιών, το οποίο χαιρέτησε τα νέα στο Facebook, προσφέρει μια εξήγηση: είναι η πιο ακριβής γλώσσα για την παροχή εντολών στην τεχνητή νοημοσύνη.
Η μελέτη υποδεικνύει ότι η δομική ακρίβεια μιας γλώσσας ίσως παίζει μεγαλύτερο ρόλο από τον όγκο δεδομένων εκπαίδευσης. Γλώσσες με πιο αυστηρή δομή, όπως τα πολωνικά, αφήνουν ελάχιστα περιθώρια ασάφειας και φαίνεται να βοηθούν την Τεχνητή Νοημοσύνη να κατανοεί με μεγαλύτερη ακρίβεια ποιος κάνει τι.
Η μελέτη σημειώνει επίσης ότι και οι 10 κορυφαίες γλώσσες ανήκουν στην ινδοευρωπαϊκή οικογένεια. Αντίθετα, τα κινέζικα, παρά τον κολοσσιαίο όγκο δεδομένων, κατατάχθηκαν δεύτερα από το τέλος, γεγονός που υποδηλώνει ότι η δομή τους μπορεί να είναι λιγότερο κατάλληλη για τις τρέχουσες αρχιτεκτονικές της ΑΙ.