Επιτομή:
Η αλματώδης ανάπτυξη του διαδικτύου επέφερε σημαντικές αλλαγές ως προς τον όγκο συλλογής δεδομένων που είναι πλέον διαθέσιμα προς εκμετάλλευση. Η ανάγκη για αξιοποίηση της κρυμμένης πληροφορίας σε αυτό το τεράστιο όγκο δεδομένων που βρίσκονται κυρίως υπό τη μορφή κειμένου, μέσω αυτοματοποιημένων τεχνικών, οδήγησε σε ένα νέο ερευνητικό πεδίο γνωστό και ως Εξόρυξη Γνώσης από Κείμενο (Text Mining). Η Εξόρυξη Γνώσης από Κείμενο χρησιμοποιεί τεχνικές από την ανάκτηση πληροφοριών, εξαγωγή πληροφοριών καθώς και τη φυσική γλώσσα επεξεργασίας (NLP) και τις συνδυάζει με τεχνικές από την Εξόρυξη Γνώσης από Δεδομένα, τη Μηχανική Μάθηση, τη Στατιστική, την Επεξεργασία Φυσικής Γλώσσας, την Ανάκτηση Πληροφορίας, την Εξαγωγή Πληροφορίας και τη Διαχείριση Γνώσης. Σκοπός της παρούσας πτυχιακής εργασίας είναι να περιγράψει αναλυτικά τη διαδικασία της εξόρυξης κειμένου καθώς και να παρουσιάσει όλες τις διαθέσιμες τεχνικές που υπάρχουν για την επίτευξη του στόχου αυτού. Ιδιαίτερα, ξεκινήσαμε κάνοντας μια εισαγωγή για την εξόρυξη δεδομένων η οποία αποτελεί τη βάση για την εξόρυξη κειμένου, όπου παρουσιάσαμε αναλυτικά τα βήματα της καθώς και όλες τις τεχνικές της. Στη συνέχεια γίνεται εισαγωγή στο κυρίως θέμα όπου θα παρουσιαστούν και εκεί όλα τα στάδια και συγκεκριμένα θα αναφερθούμε αναλυτικά στα στάδια της προ-επεξεργασίας κειμένου, μείωσης των διαστάσεων των χαρακτηριστικών καθώς και τους αλγόριθμους μηχανικής μάθησης καθώς τα συγκεκριμένα βήματα είναι τα πιο σημαντικά και είναι αυτά τα οποία θα οδηγήσουν ώστε να γίνει σωστά η διαδικασία της εξόρυξης γνώσης από κείμενο.
ABSTRACT
The rapid growth of the internet has led to significant changes in the volume of data collection that is now available for exploitation. The need to exploit this hidden information in this vast amount of data based mainly on text, through automated techniques, has led to a new research field known as Text Mining. Text Mining uses techniques from the information retrieval, information extraction and natural word processing (NLP) and combines it with Data Mining, Mechanical Learning, Statistics, Physical Language, Information Retrieval, Data Export and Knowledge Management. The purpose of this diploma thesis is to describe in detail the text mining process and present all the available techniques which exist in order to achieve this goal. In particular, we started by introducing an introduction to data mining, which is the basis for text mining, where we presented in detail its steps and all its techniques. Then the main topic is presented where all the stages will be presented and in particular we will deal with the stages of text pre-processing, diminution of the dimensions of the attributes as well as the machine learning algorithms as the concrete steps are the most important and they will lead to the right process of knowledge mining.