Επιτομή:
Αντικείμενο της παρούσας εργασίας αποτελεί η μελέτη εργαλείων crawler. Πρόκειται για
προγράμματα που επισκέπτονται web ιστοσελίδες και διαβάζουν τις σελίδες τους και άλλες
πληροφορίες, δημιουργώντας καταχωρήσεις για ένα ευρετήριο μηχανής αναζήτησης.
Αρχικά θα γίνει αναφορά σε κάποιες εισαγωγικές έννοιες και γενικά σημεία του crawling.
Έπειτα θα περιγραφεί και θα αναλυθεί το Apache Nutch και το Sparkler, θα περιγραφεί η
αρχιτεκτονική τους και η διαδικασία εγκατάστασης τους. Τέλος θα παρουσιαστούν τα
προβλήματα και τα συμπεράσματα που θα προκύψουν για το κάθε ένα. Επίσης θα γίνει
αναφορά σε διάφορα εργαλεία crawler τα οποία κάνουν ανίχνευση ιστού σε σελίδες και είναι
ανοιχτού κώδικα. Επίσης θα αναφερθούν κάποια βασικά πλεονεκτήματα και μειονεκτήματα
τους.
Θα αναλυθούν οι τεχνολογίες που θα χρησιμοποιήθούν για την τελική εφαρμογή. Ποιές
τεχνολογίες χρησιμοποιήθηκαν στον scraper, στο back-end με την παρουσίαση ενός swagger,
και την front-end τελική εφαρμογή του χρήστη. Θα γίνει η ανάλυση της εφαρμογής, αναλύοντας
τον τρόπο που θα γίνει η συλλογή των δεδομένων, περιεχόμενα του API / back-end, η
αρχιτεκτονική της εφαρμογής και τέλος το interface της εφαρμογης. Στο τέλος θα αναφερθούν
κάποια γενικά συμπεράσματα και παρατηρήσεις.