ΔΗΜΟΣΘέΝΗΣ Συνθέτης Ομιλίας Πληροφορίες Χαρακτηριστικά Το σύστημα Δείγματα Downloads Λίστα η-ταχυδρομείου Δημοσιεύσεις Ο ρήτορας Επικοινωνία Γεράσιμος Ξύδας gxydas@di.uoa.gr Τελευταία ενημέρωση: 3 Μαϊου 2004 |
Χαρακτηριστικά της έκδοσης 2
Ο ΔΗΜΟΣΘέΝΗΣ υποστηρίζει πολλαπλές φωνές. Προσφέρει μία συλλογή από διαφορετικές αντρικές και γυναικείες φωνές, καθώς επίσης και την δυνατότητα ορισμού "χαρακτήρων" με βάση αυτές τις φωνές. Κάθε ένας χαρακτήρας ορίζει τα δικά του χαρακτηριστικά επεξεργασίας κατά την διαδικασία μετατροπής του κειμένου σε ομιλία (π.χ. φωνηματική μετατροπή, μοντέλο προσωδίας), επιτρέποντας την προσωποποίηση της παραγώμενης ομιλίας.
Η αρχιτεκτονική του ΔΗΜΟΣΘέΝΗ επιτρέπει την ανάπτυξη αποδοτικών υλοποιήσεων συστημάτων μετατροπής κειμένου σε ομιλία. Στην έκδοση εξυπηρέτη (server), ο ΔΗΜΟΣΘέΝΗΣ μπορεί και εξυπηρετεί κάθε κανάλι με ταχύτητα περίπου 200 φορές realtime, προσφέροντας αρκετά κανάλια σε τηλεπικοινωνιακές εφαρμογές. Ο Αναλυτής Κειμένου βασίζεται σε μια μηχανή αυτομάτων πεπερασμένης κατάστασης και είναι ικανός να εντοπίζει:
Στον ΔΗΜΟΣΘέΝΗ, τα κείμενα αναλύονται με σκοπό την εξαγωγή γραμματικής και συντακτικής πληροφορίας. Αυτή η πληροφορία γίνεται εκμεταλλεύσιμη κατά την παραγωγή της προσωδίας για μεγαλύτερο ρεαλισμό στην τονική ισορροπία των λέξεων.
Η Γεννήτρια Προφοράς αντιμετωπίζει τα φαινόμενα συνάρθρωσης με σκοπό την καλύτερη προφορά των λέξεων. Η γεννήτρια είναι παραμετροποιήσιμη ώστε να υποστηρίζονται ποικίλα τοπικά ιδιώματα.
Ο ΔΗΜΟΣΘέΝΗΣ είναι ένα πολυγλωσσικό σύστημα, που σημαίνει ότι μπορεί να χειρίζεται κείμενα που περιέχουν ταυτόχρονα περισσότερες από μια γλώσσες (π.χ. ένα ελληνικό έγγραφο που περιέχει μια αγγλική παράγραφο) χωρίς να αλλάζει η φωνή.
Ο ΔΗΜΟΣΘέΝΗΣ εισάγει στοιχεία που αυξάνουν τη φυσικότητα και μειώνουν την προβλεψιμότητα στην παραγόμενη ομιλία. Στην έκδοση 2, η αναπαράσταση της προσωδίας βασίζεται σε στατιστικώς εκπαιδευόμενα μοντέλα από μεγάλα σώματα κειμένων.
Ο ΔΗΜΟΣΘέΝΗΣ περιλαμβάνει 3 φυσικές φωνές βασισμένες σε δίφωνα, ενώ ένα εργαλείο αυτόματης αναγνώρισης ομιλίας βασισμένο στο HTK επιτρέπει την δημιουργία νέων φωνών σε μικρό χρονικό διάστημα. Οι φωνές αυτές αποτελούνται από 1081 δι-συμπλέγματα που αναπαριστούν όλες τις περιπτώσεις συνάρθρωσης της ελληνικής γλώσσας. Τα δίφωνα έχουν κωδικοποιηθεί και προσφέρονται με διάφορους αλγορίθμους, όπως τον MBROLA, Residual LPC, TP-PSOLA.
Ο ΔΗΜΟΣΘέΝΗΣ, χάρη στην αρθρωτή αρχιτεκτονική του (Component Based Technology), μπορεί να επεκταθεί με ποικίλους τρόπους. Καινούργιες γλώσσες, χροιές και φωνές, νέα αρθρώματα επεξεργασίας σήματος, επεξεργασίας φυσικής γλώσσας και άλλα μπορούν να εισαχθούν με σχετική ευκολία.
Τα αρθρώματα του ΔΗΜΟΣΘέΝΗ είναι πλήρως προσαρμόσιμα και επιπλέον μπορούν να αποτελέσουν ανεξάρτητες εφαρμογές (π.χ. ο μετατροπέας ελληνικών στο διεθνές φωνητικό αλφάβητο (IPA) μπορεί να χρησιμοποιηθεί σε εφαρμογές λεξικών).
Η λειτουργία του ΔΗΜΟΣΘέΝΗ μπορεί να ρυθμιστεί ανά άρθρωμα. Για παράδειγμα, ο τελικός χρήστης μπορεί να διαλέξει αν τα ακρώνυμα θα αναλύονται ή θα προφέρονται ώς έχουν. Επιπλέον, ο ΔΗΜΟΣΘέΝΗΣ μπορεί να λειτουργήσει και με άλλους συνθέτες ομιλίας, όπως με ένα συνθέτη formant. |