Καινοτόμα προσέγγιση βελτιώνει την ακρίβεια της αυτόματης αναγνώρισης φωνής

Σε μια πρόσφατη μελέτη, ερευνητές από το Πανεπιστήμιο Επιστήμης και Τεχνολογίας του Βασιλιά Αβδουλάχ της Σαουδικής Αραβίας και την NVIDIA ανέπτυξαν μια νέα προσέγγιση για να βελτιώσουν την ακρίβεια των συστημάτων Αυτόματης Αναγνώρισης Φωνής (ASR). Η τεχνολογία ASR χρησιμοποιείται ευρέως σε καταναλωτικές συσκευές, όπως έξυπνα ηχεία, για να μετατρέπει την προφορική γλώσσα σε γραπτό κείμενο.

Η προσέγγιση της ομάδας, που ονομάζεται Whispering-LLaMA, συνδυάζει δύο στοιχεία για να βελτιώσει την ακρίβεια των συστημάτων ASR. Το πρώτο στοιχείο είναι το αρχικό μοντέλο Whisper ASR, που εκπαιδεύτηκε σε μεγάλο όγκο πολυγλωσσικών ηχητικών δεδομένων. Αυτό το μοντέλο δημιουργεί πάνω από μία υπόθεση για προφορικά δείγματα. Το δεύτερο στοιχείο είναι το μοντέλο γλώσσας LLaMA, το οποίο χρησιμοποιείται για να δημιουργεί διορθωμένες μεταγραφές, εκμεταλλευόμενο τη γνώση της γλώσσας.

Αυτό που ξεχωρίζει το Whispering-LLaMA από προηγούμενες προσεγγίσεις είναι η δυνατότητά του να ενσωματώνει επιπλέον μορφές δεδομένων. Η ASR απαιτεί τόσο πληροφορίες από τον ήχο (ηχοί στο περιβάλλον του ομιλητή) όσο και από τη γλώσσα (γνώση σχετική με τον τομέα). Με την καταγραφή και επεξεργασία και των δύο τύπων δεδομένων, οι ερευνητές πιστεύουν ότι το σύστημα μπορεί να κάνει πιο ακριβείς προβλέψεις.

Η ομάδα πραγματοποίησε αξιολογήσεις χρησιμοποιώντας διάφορα σύνολα δεδομένων ASR και διαπίστωσε ότι η συνένωση των μορφών δεδομένων στο Whispering-LLaMA οδήγησε σε μια εκπληκτική βελτίωση κατά 37,66% του σφάλματος σε λέξεις σε σύγκριση με τα υπάρχοντα συστήματα ASR. Αυτά τα ελπιδοφόρα αποτελέσματα υποδηλώνουν τη δυνατότητα ανάπτυξης μιας νέας γενιάς ιδιαίτερα ακριβών εργαλείων ASR.

Για να ενθαρρύνουν περαιτέρω έρευνα και ανάπτυξη σε αυτό τον τομέα, η ομάδα έχει καταστήσει τον κώδικά και τα προ-εκπαιδευμένα μοντέλα τους διαθέσιμα ως ανοιχτού πηγαίου κώδικα, επιτρέποντας σε άλλους ερευνητές να χτίσουν πάνω στην εργασία τους.

Αυτή η καινοτόμα προσέγγιση στην ASR όχι μόνο βελτιώνει την άνεση και προσβασιμότητα των καταναλωτικών συσκευών, αλλά και θέτει τις βάσεις για προηγμένες τεχνολογίες αναγνώρισης φωνής. Με τη συνεχή βελτίωση της ακρίβειας, τα συστήματα ASR είναι έτοιμα να ανατρέψουν τον τρόπο που αλληλεπιδρούμε με την τεχνολογία και να καταστήσουν τις διεπαφές βασισμένες στη φωνή πιο αξιόπιστες και αποδοτικές.

The source of the article is from the blog scimag.news