Συνθέτης Ομιλίας ΔΗΜΟΣΘέΝΗΣ

ΔΗΜΟΣΘέΝΗΣ
Συνθέτης Ομιλίας
Πληροφορίες
Χαρακτηριστικά
Το σύστημα
Δείγματα
Downloads
Λίστα η-ταχυδρομείου
Δημοσιεύσεις
Ο ρήτορας
Επικοινωνία

Γεράσιμος Ξύδας
gxydas@di.uoa.gr
Τελευταία ενημέρωση:
3 Μαϊου 2004

Χαρακτηριστικά της έκδοσης 2

Φωνητικοί Χαρακτήρες

Ο ΔΗΜΟΣΘέΝΗΣ υποστηρίζει πολλαπλές φωνές. Προσφέρει μία συλλογή από διαφορετικές αντρικές και γυναικείες φωνές, καθώς επίσης και την δυνατότητα ορισμού "χαρακτήρων" με βάση αυτές τις φωνές. Κάθε ένας χαρακτήρας ορίζει τα δικά του χαρακτηριστικά επεξεργασίας κατά την διαδικασία μετατροπής του κειμένου σε ομιλία (π.χ. φωνηματική μετατροπή, μοντέλο προσωδίας), επιτρέποντας την προσωποποίηση της παραγώμενης ομιλίας.

Απόδοση

Η αρχιτεκτονική του ΔΗΜΟΣΘέΝΗ επιτρέπει την ανάπτυξη αποδοτικών υλοποιήσεων συστημάτων μετατροπής κειμένου σε ομιλία. Στην έκδοση εξυπηρέτη (server), ο ΔΗΜΟΣΘέΝΗΣ μπορεί και εξυπηρετεί κάθε κανάλι με ταχύτητα περίπου 200 φορές realtime, προσφέροντας αρκετά κανάλια σε τηλεπικοινωνιακές εφαρμογές.

Ανάλυση κειμένου

Ο Αναλυτής Κειμένου βασίζεται σε μια μηχανή αυτομάτων πεπερασμένης κατάστασης και είναι ικανός να εντοπίζει:

Περισσότερα από 800 ακρώνυμα σε όλες τις κλίσεις, με ρυθμιζόμενη προφορά: για παράδειγμα 'το Ι.Κ.Α.' ή το 'ΙΚΑ' μπορούν να εκφωνηθούν είτε σαν 'το Ίδρυμα Κοινωνικών Ασφαλίσεων' είτε σαν 'το Ίκα'.
Διάφορες μορφές ημερομηνιών και ωρών όπως: '21/2/2001' -> 'Εικοσιμία δευτέρου του δύο χιλιάδες ένα' και '18:45' -> 'Δεκαοκτώ και σαράνταπέντε'.
Αριθμητικά, λατινικούς αριθμούς, ελληνικούς αριθμούς και άλλα μη-ορθογραφικά σημάδια.

Επεξεργασία Φυσικής Γλώσσας

Στον ΔΗΜΟΣΘέΝΗ, τα κείμενα αναλύονται με σκοπό την εξαγωγή γραμματικής και συντακτικής πληροφορίας. Αυτή η πληροφορία γίνεται εκμεταλλεύσιμη κατά την παραγωγή της προσωδίας για μεγαλύτερο ρεαλισμό στην τονική ισορροπία των λέξεων.

Γεννήτρια Προφοράς

Η Γεννήτρια Προφοράς αντιμετωπίζει τα φαινόμενα συνάρθρωσης με σκοπό την καλύτερη προφορά των λέξεων. Η γεννήτρια είναι παραμετροποιήσιμη ώστε να υποστηρίζονται ποικίλα τοπικά ιδιώματα.

Πολυγλωσσία

Ο ΔΗΜΟΣΘέΝΗΣ είναι ένα πολυγλωσσικό σύστημα, που σημαίνει ότι μπορεί να χειρίζεται κείμενα που περιέχουν ταυτόχρονα περισσότερες από μια γλώσσες (π.χ. ένα ελληνικό έγγραφο που περιέχει μια αγγλική παράγραφο) χωρίς να αλλάζει η φωνή.

Αναπαράσταση Προσωδίας

Ο ΔΗΜΟΣΘέΝΗΣ εισάγει στοιχεία που αυξάνουν τη φυσικότητα και μειώνουν την προβλεψιμότητα στην παραγόμενη ομιλία. Στην έκδοση 2, η αναπαράσταση της προσωδίας βασίζεται σε στατιστικώς εκπαιδευόμενα μοντέλα από μεγάλα σώματα κειμένων.

Φωνές

Ο ΔΗΜΟΣΘέΝΗΣ περιλαμβάνει 3 φυσικές φωνές βασισμένες σε δίφωνα, ενώ ένα εργαλείο αυτόματης αναγνώρισης ομιλίας βασισμένο στο HTK επιτρέπει την δημιουργία νέων φωνών σε μικρό χρονικό διάστημα. Οι φωνές αυτές αποτελούνται από 1081 δι-συμπλέγματα που αναπαριστούν όλες τις περιπτώσεις συνάρθρωσης της ελληνικής γλώσσας. Τα δίφωνα έχουν κωδικοποιηθεί και προσφέρονται με διάφορους αλγορίθμους, όπως τον MBROLA, Residual LPC, TP-PSOLA.

Επεκτασιμότητα

Ο ΔΗΜΟΣΘέΝΗΣ, χάρη στην αρθρωτή αρχιτεκτονική του (Component Based Technology), μπορεί να επεκταθεί με ποικίλους τρόπους. Καινούργιες γλώσσες, χροιές και φωνές, νέα αρθρώματα επεξεργασίας σήματος, επεξεργασίας φυσικής γλώσσας και άλλα μπορούν να εισαχθούν με σχετική ευκολία.

Προσαρμογή

Τα αρθρώματα του ΔΗΜΟΣΘέΝΗ είναι πλήρως προσαρμόσιμα και επιπλέον μπορούν να αποτελέσουν ανεξάρτητες εφαρμογές (π.χ. ο μετατροπέας ελληνικών στο διεθνές φωνητικό αλφάβητο (IPA) μπορεί να χρησιμοποιηθεί σε εφαρμογές λεξικών).

'Aλλα χαρακτηριστικά

Η λειτουργία του ΔΗΜΟΣΘέΝΗ μπορεί να ρυθμιστεί ανά άρθρωμα. Για παράδειγμα, ο τελικός χρήστης μπορεί να διαλέξει αν τα ακρώνυμα θα αναλύονται ή θα προφέρονται ώς έχουν. Επιπλέον, ο ΔΗΜΟΣΘέΝΗΣ μπορεί να λειτουργήσει και με άλλους συνθέτες ομιλίας, όπως με ένα συνθέτη formant.