dc.description.abstract |
Σκοπός της παρούσας πτυχιακής εργασίας είναι η ανάπτυξη ενός συστήματος τεμαχισμού και αναγνώρισης ηχητικών κατηγιοριών από ραδιοφωνικές εκπομπές.
Συγκεκριμένα, χρησιμοποιήθηκαν εκπομπές-δελτία ειδήσεων από τη Φωνή της Αμερικής (Voice of America), οι οποίες κατατμήθηκαν χειροκίνητα μέσω του εργαλείου PRAAT και αποτελούν τη βάση δεδομένων που χρησιμοποιήθηκε.
Ακολούθως, έγινε η εξαγωγή χαρακτηριστικών μέσω του MARSYAS και κατηγοριοποίηση μέσω WEKA. Ο αλγόριθμος που χρησιμοποιήθηκε ήταν οι Support Vector Machines (SVM), ο οποίος αποδείχθηκε αποτελεσματικός, ενώ πραγματοποιήθηκε εξαγωγή παραμέτρων, με τους Mel Frequency Cepstral Coefficients (MFCC) να δίνουν τα υψηλότερα ποσοστά στην κατηγοριοποίηση των κλάσεων. Έγινε εκτενής ανάλυση των μεθόδων που χρησιμοποιήθηκαν, τόσο στην προεπεξεργασία της βάσης δεδομένων, όσο και για την εξαγωγή των παραμέτρων και στην κατηγοριοποίηση. Στο τέλος, γίνεται αναλυτική παρουσίαση των αποτελεσμάτων που προέκυψαν από την πειραματική διαδικασία με πίνακες και στατιστικά, καθώς και σύγκριση μεταξύ τους, ώστε να προκύψει το τελικό συμπέρασμα. |
el |