Πανεπιστήμιο Αθηνών - Τμήμα Πληροφορικής Πανεπιστήμιο Αθηνών

Τμήμα Πληροφορικής

Πρόγραμμα HORIZON - Εργο ΕΣΤΙΑ

Πρόγραμμα HORIZON

Έργο ΕΣΤΙΑ

Διαλογικό σύστημα αναγνώρισης -σύνθεσης ομιλίας για πρόσβασηστο WEB


Στο πλαίσιο του Έργου ΕΣΤΙΑ, αναπτύχθηκε ένα διαλογικό σύστημα επικοινωνίας με ομιλία, με σκοπό τον έλεγχο των τυπικών λειτουργιών ενός φυλλομετρητή (browser) για πρόσβαση στον Παγκόσμιο Ιστό (Word Wide Web - WWW). Τα πλεονεκτήματα ενός τέτοιου συστήματος είναι προφανή και αυταπόδεικτα τόσο για άτομα χωρίς χέρια ή με δυσκολία χρήσης του πληκτρολογίου και του ποντικού, όσο και για άτομα με μειωμένη όραση ή και τύφλωση. Η ομιλία είναι ένας από τους πιο μοντέρνους και πολλά υποσχόμενους τρόπους διαλογικής επικοινωνίας των ανθρώπων με τους υπολογιστές και γενικότερα τις μηχανές. Η ενσωμάτωση όμως της τεχνολογίας ομιλίας σε μια συγκεκριμένη εφαρμογή σήμερα δεν είναι  τόσο εύκολη, αφενός μεν γιατί οι μέθοδοι αναγνώρισης ομιλίας δεν δίνουν λύσεις για όλες τις περιπτώσεις, αφετέρου δε γιατί τα διαθέσιμα εργαλεία υλικού και λογισμικού για το σκοπό αυτό δεν είναι τόσο ανεπτυγμένα και διαδεδομένα. Επιπλέον, πολλές φορές δεν δίδεται και τόσο μεγάλη σημασία στον τρόπο σχεδίασης και ανάλυσης της διεπιφάνειας χρήσης και του διαλόγου με ομιλία από την πλευρά του επιστημονικού τομέα επικοινωνίας ανθρώπου-μηχανής.

Στην παρούσα εφαρμογή, καθώς και σε όλα τα παραπάνω στοιχεία, δόθηκε ιδιαίτερη προσοχή (η αναλυτική περιγραφή τους εμπεριέχεται στη συνοδευτική τεχνική έκθεση). Η σχεδίαση του συστήματος ξεκίνησε με τον καθορισμό των ομάδων χρηστών που θα μπορούσαν να χρησιμοποιήσουν ένα τέτοιο σύστημα. Κατόπιν δόθηκε ιδιαίτερη έμφαση στην κατασκευή των διαλόγων,  δίνοντας επιπρόσθετη προσοχή στις ιδιαιτερότητες των ατόμων με ειδικές ανάγκες, ώστε το σύστημα να είναι ιδιαιτέρα φιλικό και εύχρηστο και από τις κατηγορίες αυτών των χρηστών.

Το διαλογικό σύστημα επικοινωνίας με ομιλία για πρόσβαση στο Παγκόσμιο Ιστό (Word-Wide Web) αποτελείται από επιμέρους συστήματα και εφαρμογές Για την επίτευξη της επικοινωνίας μεταξύ χρήστη και λογισμικού με τη βοήθεια ομιλίας, χρησιμοποιήθηκαν τεχνολογίες αναγνώρισης και σύνθεσης ομιλίας. Πιο συγκεκριμένα χρησιμοποιήθηκε το ολοκληρωμένο σύστημα αναγνώρισης και σύνθεσης ομιλίας Phonetic Engine 500, με δυνατότητες αναγνώρισης συνεχούς ομιλίας, ανεξάρτητα από ομιλητή και με μεγάλο λεξιλόγιο για την Aγγλική γλώσσα. Για την πρόσβαση σε ιστοσελίδες, χρησιμοποιήθηκε η Windows εφαρμογή Netscape Navigator 3.01 που είναι ένας από τους πιο διαδεδομένους φυλλομετρητές που χρησιμοποιούνται σήμερα. Οι διαδικασίες που ελέγχονται μέσω ομιλίας είναι οι τυπικές και πλέον συνηθισμένες από αυτές που συναντώνται σε ένα φυλλομετρητή (π.χ. file new/open/save/print/close, open new location, exit, add bookmark, κλπ.).

Το διαλογικό σύστημα επικοινωνίας με ομιλία σχεδιάστηκε και υλοποιήθηκε με τη βοήθεια των εργαλείων του συστήματος αναγνώρισης-σύνθεσης ομιλίας Phonetic Engine 500 της Speech Systems, για τον έλεγχο του Netscape Commuinicator. Στη συνέχεια αξιολογήθηκε από 7 χρήστες, άνδρες και γυναίκες, με μέσο ποσοστό επιτυχίας 86% κατά την αναγνώριση της ομιλίας, αποκομίζοντας ταυτόχρονα και την πολύ θετική γνώμη όλων των χρηστών τόσο για την ευκολία χρήσης της συγκεκριμένης εφαρμογής, όσο και για την ενσωμάτωση της τεχνολογίας ομιλίας στις εφαρμογές πληροφορικής γενικότερα.

Οι απαιτήσεις σωστής λειτουργίας αυτής της εφαρμογής υπαγορεύονται, αφενός μεν από την υλοποίηση της εξειδικευμένης συσκευής, που πραγματοποιεί την αναγνώριση ομιλίας και αφετέρου από τα αντίστοιχα προγράμματα οδηγών για τη συγκεκριμένη συσκευή. Κάποιοι άλλοι περιορισμοί εισάγονται εξαιτίας της φυσικής δυσκολίας που παρουσιάζει η αναγνώριση ομιλίας σαν διαδικασία. Έτσι λοιπόν, όλες αυτές οι απαιτήσεις και οι περιορισμοί συνοψίζονται στους ακόλουθους πίνακες:

 

Απαιτήσεις υλικού (hardware) που προκύπτουν από την εξειδικευμένη κάρτα του

Συστήματος Phonetic Engine 500

Επεξεργαστής

486 (συνιστάται Pentium)

Μνήμη RAM

8 Mb (συνιστάται 16 Mb)

Σκληρός Δίσκος

40 Mb ελεύθερα (συνιστάται 80 Mb)

Κάρτα Αναγνώρισης/Σύνθεσης

Phonetic Engine 500

Κάρτα Δικτύου

Σύνδεση με INTERNET ανεξαρτήτως ταχύτητας

Κάρτα Ήχου

Προαιρετικά για τη σύνδεση εξωτερικών ηχείων (συνιστάται Sound Blaster)

Μικρόφωνο

Υψηλής ευαισθησίας (συνοδεύει την PE500)

 

Απαιτήσεις σε λογισμικό (software)

Λειτουργικό σύστημα

Windows 3.0/3.11/Windows 95

Browser

Netscape Navigator 3.01

Πρόγραμμα οδηγού

Phonetic Engine Drivers

Πρόγραμμα αναγνώρισης/σύνθεσης ομιλίας

Phonetic Engine Executive

 

Προδιαγραφές και περιορισμοί συνθηκών λειτουργίας

Περιβάλλον λειτουργίας

Χώρος γραφείου με σχετικά χαμηλό επίπεδο θορύβου

Γλώσσα Ομιλίας

Αγγλική

Φύλο ομιλητή

Άνδρας/Γυναίκα (με τη χρησιμοποίηση του κατάλληλου μοντέλου ομιλητή)

 

home.gif (1026 bytes) Αρχική Σελίδα   arleft1.gif (997 bytes) Επιστροφή στην προηγούμενη σελίδα

Για περισσότερες πληροφορίες σχετικά με το έργο ΕΣΤΙΑ επικοινωνήστε μαζί μας Αποστολή e-mail σχετικά με το έργο ΕΣΤΙΑ.
Για παρατηρήσεις και σχόλια αναφορικά με τις WWW σελίδες επικοινωνήστε με τον  υπεύθυνο
Αποστολή μηνύματος σχετικά με τις WWW σελίδες .