Ακούστε...

"Καλώς ήλθατε στην σελίδα του Συνθέτη Ομιλίας του Πανεπιστημίου Αθηνών."

Αντικείμενο της εργασίας αυτής ήταν η σχεδίαση και η ανάπτυξη ενός ανοικτού Συστήματος Μετατροπής Κειμένου σε Συνθετική Ομιλία που βασίζεται σε κανόνες το οποίο να υποστηρίζει την Ελληνική γλώσσα και να ενσωματώνεται εύκολα σε εφαρμογές του περιβάλλοντος MS-Windows.

 Στον παρακάτω πίνακα φαίνονται οι βασικές απαιτήσεις του συστήματος που τέθηκαν εξ'αρχής και αποτέλεσαν τον οδηγό για την ανάπτυξη του, καθώς και ο τρόπος με τον οποίο ικανοποιήθηκαν αυτές κατά την σχεδίαση:

ΑΠΑΙΤΗΣΗ για το σύστημα ΕΞΕΛΙΞΗ του συστήματος

Να υλοποιηθεί σε μορφή λογισμικού (software) και να μην εξαρτάται από εξειδικευμένο υλικό (hardware).

Είναι ανεξάρτητο από εξειδικευμένο υλικό, αφού υλοποιήθηκε εξ’ολοκλήρου σε μορφή λογισμικού. Η ανάπτυξη έγινε σε 32-bit περιβάλλον Visual C++ και η λειτουργία του απαιτεί απλώς την ύπαρξη μιας οποιασδήποτε κάρτας ήχου συμβατής με το περιβάλλον MS-Windows95, ενώ με μικρές τροποποιήσεις είναι δυνατόν να χρησιμοποιηθεί και από συστήματα Apple Macintosh. Στον αντίποδα αυτού του θετικού χαρακτηριστικού, ο συνθέτης είναι (προς το παρόν) καταλληλός για χρήση μόνο σε μικρές φράσεις, γιατί σε αντίθετη περίπτωση ο χρόνος σύνθεσης είναι μεγάλος. Όμως, η ταχύτητα του συνθέτη δεν αποτέλεσε βασική απαίτηση σε αντίθεση με την ποιότητα της παραγώμενης συνθετικής ομιλίας. Εξάλλου, έχει προβλεφθεί η δυνατότητα βελτίωσης της ταχύτητας.

 

Ο “όγκος” του Συνθέτη Ομιλίας είναι αρκετά μικρός. Αρκεί να αναφερθεί ότι το πρόγραμμα “Greek Text Assist”, το οποίο ενσωματώνει την τεχνολογία του συνθέτη, έχει μέγεθος 538ΚΒ, ενώ η βάση δεδομένων που χρησιμοποιείται έχει μέγεθος μόλις 11,6ΚΒ.

Να μετατρέπει οποιοδήποτε Ελληνικό κείμενο σε ομιλία, χωρίς να απαιτείται κάποια ειδική μορφή του κειμένου αυτού.

Η είσοδος του συνθέτη μπορεί να είναι ένα οποιοδήποτε Ελληνικό κείμενο, χωρίς καμμία προ-επεξεργασία, χάρις σε έναν προσωρινό ψευδο-επεξεργαστή εισόδου ο οποίος έχει καλά αποτελέσματα. Ωστόσο, αυτό το κομμάτι επιδέχεται αρκετές βελτιώσεις.

Να έχει αρθρωτή (modular) δομή ως προς την αρχιτεκτονική του, ώστε να ενσωματώνει εύκολα υπάρχοντα ή καινούργια συστατικά λογισμικού που υλοποιούν συγκεκριμένες προχωρημένες ιδιότητες της ομιλίας.

H διάρθρωση της υλοποίησης ακολουθεί το μοντέλο της αντικειμενοστραφούς σχεδίασης και αυτό καθιστά το σύστημα εύκολα τροποποιήσιμο και αναβαθμίσιμο, ενώ εύκολη είναι και η προσθήκη νέων μοντέλων (συστατικών) τα οποία μπορεί να υλοποιούν προχωρημένες ιδιότητες της ομιλίας.

Να ελέγχεται από σύνολα κανόνων, που να αφορούν τόσο στη συνολική ποιότητα της συνθετικής ομιλίας, όσο και την ποιότητα σε φωνηματικό επίπεδο.

Παρέχεται η δυνατότητα προσθήκης νέων χαρακτηριστικών ομιλίας στην βάση δεδομένων του Συνθέτη Ομιλίας. Το περιεχόμενο των κανόνων επηρεάζει άμεσα και το παραγώμενο αποτέλεσμα. Αλλάζοντας τους κανόνες μπορούμε να πετύχουμε διαφορετικές αρθρώσεις και χροιές ομιλίας, ενώ μπορούμε να ελέγξουμε και κάποια χαρακτηριστικά που αφορούν τον ομιλητή. Από τις παραμέτρους που ελέγχουν τον συνθέτη Klatt, οι μισές περίπου μεταβάλλονται καθόλη την διάρκεια της συνθετικής ομιλίας και περιέχουν τις λεπτομέρειες της συνάρθρωσης και του επιτονισμού, ενώ οι άλλες μισές παραμένουν σταθερές και προσδιορίζουν τα χαρακτηριστικά του ομιλητή, σε συνδυασμό πάντα με τις πρώτες. Επιπλέον, στα χαρακτηριστικά του συνθέτη ομιλίας πρέπει να συμπεριλάβουμε την δυνατότητα προσθήκης ή τροποποίησης των φωνημάτων, τα οποία σε συνδυασμό με αντίστοιχους κανόνες καθιστούν τον συνθέτη πολυγλωσσικό. Μπορούν δηλαδή να ορισθούν τα φωνήματα και οι κανόνες μιας άλλης διαλέκτου πέραν της Ελληνικής.

Να συνοδεύεται από ένα εύχρηστο γραφικό εργαλείο για την ρύθμιση αυτών των κανόνων.

Το σύστημα συνοδεύεται από έναν Γραφικό Συντάκτη Κανόνων ο οποίος απεικονίζει την κίνηση των formants σε μορφή φασματογραφήματος και παράχει πολλούς μηχανισμούς ελέγχου και ανάπτυξης της βάσης δεδομένων που χρησιμοποιεί ο συνθέτης, ενώ συνεργάζεται και με το σύστημα ανάλυσης ομιλίας Computerized Speech Research Environment (CSRE).

Να είναι εύκολη η ενσωμάτωση του σε οποιαδήποτε υπάρχουσα εμπορική ή άλλη εφαρμογή λογισμικού (επεξεργαστές κειμένου, e-mail, βοηθήματα για άτομα με ειδικές ανάγκες, κλπ).

Παρέχεται η δυνατότητα εγκατάστασης του Συνθέτη Ομιλίας σε οποιαδήποτε άλλη εφαρμογή για Windows95 μέσω μία έκδοσης του σε μορφή βιβλιοθήκης MS-Windows95 (DLL). Αυτό μάλιστα το δοκιμάσαμε εγκαθιστώντας τον σε Συστήματα Διαπροσωπικής Επικοινωνίας για Άτομα με Ειδικές Ανάγκες που αναπτύσσονται στο Εργαστήριο Επικοινωνίας με Ομιλία του Τμήματος Πληροφορικής του Πανεπιστημίου Αθηνών, παράγοντας πολύ καλά αποτελέσματα και αποσπώντας πολύ καλές κριτικές.

Για την σχεδίαση του Συνθέτη Ομιλίας μελετήθηκαν τα αίτια και τα γεγονότα που συμβάλλουν στην παραγωγή ομιλίας από τον άνθρωπο. Στην συνέχεια, η διαδικασία αυτή προσομοιώθηκε χρησιμοποιώντας μία παραλλαγή του κλασσικού συνθέτη formant του Klatt, το μοντέλο του οποίου αποτελείται από ένα σύνολο γεννητριών ήχου και μία σειρά από χρονικά μεταβαλλόμενα ψηφιακά φίλτρα. 

Η διαδικασία που ακολουθήσαμε στη σχεδίαση και υλοποίηση του Συνθέτη Ομιλίας διαιρείται σε τρία στάδια. Για να καταστεί το σύστημα ανοικτό, κάθε ένα στάδιο ελέγχεται από κατάλληλα διαμορφωμένα σύνολα κανόνων. Το πρώτο στάδιο της σύνθεσης είναι η μετατροπή του κειμένου σε φωνήματα (text-to-phoneme). Οι αριθμοί, οι ημερομηνίες, οι συμπτίξεις και άλλα στοιχεία που δεν αποτελούν πλήρεις λέξεις μετατρέπονται σε συμβολοσειρές γραμμάτων και στην συνέχεια όλο το κείμενο μετατρέπεται σε φωνήματα. Οι κανόνες που χρησιμοποιεί αυτός ο προ-επεξεργαστής ελέγχουν το φωνητικό περιβάλλον του κάθε γράμματος σε ακτίνα τριών γραμμάτων. Στο δεύτερο στάδιο της σύνθεσης, το κείμενο των φωνημάτων σαρώνεται από κανόνες τριφώνων οι οποίοι περιέχουν όλα τα γλωσσικά χαρακτηριστικά που πρέπει να έχει ένα φώνημα όταν βρίσκεται στο κέντρο τους. Οι κανόνες αυτοί εξάγονται από μετρήσεις και στατιστικές παρατηρήσεις της συμπεριφοράς ηχογραφημένων και ψηφιοποιημένων τμημάτων Ελληνικής φυσικής ομιλίας διαφόρων ομιλητών και κυρίως των συνδυασμών ΦΣΦ, ΣΦΣ, ΣΣΦ (Φ=φωνήεν, Σ=σύμφωνο), καθώς και από παλαιότερη γλωσσολογική γνώση. Επιπλέον, σε αυτό το στάδιο έχει υλοποιηθεί στην εργασία αυτή ένα μοντέλο επιτονισμού το οποίο τονίζει μουσικά κάθε μία λέξη, με δυνατότητα επιλογής του τύπου τονισμού ανάλογα με τα σημεία στίξης που περικλύουν την λέξη (τελεία, κόμμα, θαυμαστικό, ερωτηματικό) αλλά και κενά μεταξύ λέξεων. Η μεταγλώττιση όλων αυτών των κανόνων δημιουργεί μία λίστα 40 παραμέτρων κατάλληλων να οδηγήσουν τον συνθέτη Klatt που βρίσκεται στο τελευταίο στάδιο της σύνθεσης. Από τις παραμέτρους αυτές οι 19 παραμένουν σταθερές καθόλη την διάρκεια της σύνθεσης, ενώ άλλες 21 ανανεώνουν κάθε περίπου 5 msec τις μεταβλητές ελέγχου των φίλτρων.

Το σύστημα μετατροπής κειμένου σε ομιλία περιλαμβάνει τη σχεδίαση και την υλοποίηση ενός Γραφικού Συντάκτη Κανόνων, ο οποίος απεικονίζει κάθε φορά την κίνηση των formants, επιτρέπει την προσθήκη νέων χαρακτηριστικών (φωνήματα, κανόνες συνάρθρωσης και επιτονισμού, χαρακτηριστικά ομιλητή) και διευκολύνει την συρραφή των κανόνων αφού συνεργάζεται με εφαρμογές που πραγματοποιούν ανάλυση ομιλίας, όπως το Computerized Speech Research Environment.

Η ευελιξία, η ποιότητα και η απόδοση του Συνθέτη Ομιλίας που αναπτύχθηκε επιβεβαιώθηκαν με δύο τρόπους. Ο πρώτος περιλαμβάνει την υλοποίηση της εφαρμογής “Greek Text Assist”, η οποία έχει την δυνατότητα να εκφωνεί Ελληνικά κείμενα που βρίσκονται σε άλλες εφαρμογές στο περιβάλλον MS-Windows95 (πχ MS-Word). Ο δεύτερος αποτέλεσε την ενσωμάτωση του Συνθέτη Ομιλίας σε Συστήματα Διαπροσωπικής Επικοινωνίας για Άτομα με Ειδικές Ανάγκες που έχουν αναπτυχθεί στο Εργαστήριο Επικοινωνίας με Ομιλία του Τμήματος Πληροφορικής του Πανεπιστημίου Αθηνών. Και στις δύο περιπτώσεις τα απότελεσματα ήταν πολύ ικανοποιητικά, καθώς επιτεύχθηκε κατανοητή ομιλία αρκετά καλής ποιότητας, χρησιμοποιώντας σχετικά λίγους και στοιχειώδεις κανόνες.


ΣΥΜΠΕΡΑΣΜΑ

Το ολοκληρωμένο Σύστημα Μετατροπής Κειμένου σε Συνθετική Ομιλία το οποίο αναπτύχθηκε, συγκεντρώνει αρκετά καλά χαρακτηριστικά και κυρίως παράγει πολύ καλά αποτελέσματα. Απόδειξη αποτελεί το γεγονός ότι η ποιότητα ομιλίας που παράγεται, χρησιμοποιώντας έστω και αυτή την πρώτη έκδοση (περιορισμένων και ανομοιογενών) κανόνων, κρίθηκε από τρίτα άτομα ως ικανοποιητική και, το κυριότερο, κατανοητή σε μεγάλο βαθμό. Επιπλεόν, καλύφθηκαν όλες οι βασικές απαιτήσεις που τέθηκαν κατά την εκκίνηση της σχεδίασης, όπως φαίνεται και από τον παραπάνω πίνακα.

Η ποιότητα της παραγώμενης συνθετικής ομιλίας επιδέχεται αρκετές βελτιώσεις με την χρήση καλύτερων (ποιοτικά) κανόνων. Αυτό επιβεβαιώθηκε και από το πείραμα που κάναμε για το -δύσκολο από πλευράς σύνθεσης- Ελληνικό φώνημα /ρ/: θελήσαμε να αναπτύξουμε έναν εξειδικευμένο κανόνα για το τρίφωνο /ο/-/ρ/-/ο/. Αφού ηχογραφήσαμε το σήμα και το αναλύσαμε στα formants που το αποτελούν μέσω της εφαρμογής CSRE, χρησιμοποιώντας τον Αυτόματο Κανόνα (AUTO Rule) που παρέχει ο Γραφικός Συντάκτης Κανόνων, εισάγαμε τα χαρακτηριστικά της ανάλυσης σε κανόνες τριφώνου και πλέον το /ο/-/ρ/-/ο/ όπου συναντάται μέσα στις υπό σύνθεση φράσεις χαρακτηρίζεται από μεγάλη φυσικότητα.

Ένα επιπλέον σημαντικό στοιχείο αυτής της εργασίας είναι ότι παρέχεται ένα εργαλείο με το οποίο μπορούν να δοκιμαστούν και να καταγραφούν οι κινήσεις των formants στην σύνθεση Ελληνικών φράσεων. Τέτοιου είδους δεδομένα δεν υπήρχαν και αυτό προσέθεσε μία επιπλέον δυσκολία στην όλη εργασία. Το θετικό στοιχείο όμως από αυτήν την έλλειψη είναι ότι λήφθηκε μέριμνα ώστε να είναι δυνατή η περιγραφή οποιασδήποτε κίνησης των formants μέσα από τους κανόνες (ακόμα και παραβολική κίνηση είναι δυνατή) οπότε μπορούν να αποδώθουν με ακρίβεια τα όποια αποτελέσματα μίας μελέτης των κινήσεων αυτών.


Πληροφορίες:

Δρ. Γεώργιος Κουρουπέτρογλου
e-mail: koupe@di.uoa.gr

Επικοινωνήστε μαζί μας μέσω e-mail