Επιτομή:
Η εξόρυξη δεδομένων και οι αλγόριθμοι μάθησης είναι ένας σημαντικός κλάδος της επιστήμης
των υπολογιστών με αντικείμενο την ανακάλυψη ή εύρεση ή παραγωγή λειτουργικής γνώσης
μέσω της ανάλυσης δεδομένων από μεγάλες αποθήκες δεδομένων και την εύρεση δομών που
αναδεικνύουν την γνώση.
Οι εφαρμογές της εξόρυξης δεδομένων είναι ποίκιλες. Η εξόρυξη δεδομένων είναι η
διαδικασία που περιλαμβάνει τον εντοπισμό καίριων και καινοτόμων βημάτων ή προτύπων,
τα οποία παρουσιάζουν ενδιαφέρον, καθώς και τη δημιουργία περιγραφικών κατανοητών και
προβλεπτικών μοντέλων από δεδομένα μεγάλης κλίμακας.
Σκοπός αυτής της εργασίας είναι να αναδείξει την σημαντικότητα της κατηγοριοποίησης και
της ομαδοποίησης των δεδομένων είτε είναι μεγάλα δεδομένα είτε ένα σύνολο κάποιων
εκατοντάδων γραμμών αποτελούμενα από έναν αριθμό στηλών ή χαρακτηριστικών(attributes).
Αρχικά, με τον όρο κατηγοριοποίηση (classification) αναφερόμαστε στην πρόβλεψη της
ετικέτας μιας κατηγορίας για ένα καθορισμένο μη σημασμένο σημείο. Στην συγκεκριμένη
ενότητα θα μελετήσουμε 2 παραδείγματα της πιθανοτητικής μεθοδολογίας για την
κατηγοριοποίηση. Πρώτα θα μελετηθεί ο πλήρης κατηγοριοποιητής Bayes που χρησιμοποιεί
το θεώρημα του Bayes για να προβλέψει ότι η ζητούμενη κατηγορία είναι εκείνη που
μεγιστοποιεί την εκ των υστέρων πιθανότητα. Και στην συνέχεια θα δούμε και θα
περιγράψουμε τον κατηγοροιοποιητή πλησιέστερων γειτόνων (nearest neighbors classifier), ο
οποίος στηρίζεται σε μια μη παραμετρική μέθοδο για την εκτίμηση της πυκνότητας.
Επίσης, στα πλαίσια της παρούσας εργασίας αυτής έγινε μελέτη της μαθηματικής
μοντελοποίησης και ανάλυσης αλγορίθμων. Επίσης, διερευνήθηκαν τα μαθηματικά μοντέλα
που εφαρμόζονται στο συγκεκριμένο πεδίο και μελετήθηκαν διάφοροι αλγόριθμοι
συσταδοποίησης.