Sunday, November 30, 2008

Τα CAPTCHA βοηθούν στην ψηφιοποίηση βιβλίων




Ψηφιοποίηση βιβλίων στη στιγμή!

Ο ιστότοπος reCAPTCHA είναι μια δωρεάν υπηρεσία που βοηθά την ψηφιοποίηση βιβλίων.

Το CAPTCHA είναι ένα πρόγραμμα που μπορεί να διακρίνει αν ο χρήστης είναι ένα ανθρώπινο ον ή υπολογιστής. Έχετε δει πιθανώς αυτές τις πολύχρωμες εικόνες με παραμορφωμένο κείμενο στο κάτω μέρος διαφόρων ιστοσελίδων.
Τα CAPTCHA χρησιμοποιούνται σε πολλούς δικτυακούς τόπους για να αποτραπεί η κατάχρησή τους από τα "bots", δηλαδή τα αυτοματοποιημένα προγράμματα που δημιουργούν συνήθως γραπτά ανεπιθύμητα μηνύματα (spam). Κανείς ηλεκτρονικός υπολογιστής δεν μπορεί να διαβάσει παραμορφωμένο κείμενο, ενώ οι άνθρωποι μπορούν, οπότε τα bots δεν μπορούν να εισβάλουν σε ιστότοπους που προστατεύονται από CAPTCHA.

Περίπου 60 εκατομμύρια CAPTCHA επιλύονται από ανθρώπους σε όλο τον κόσμο κάθε μέρα. Σε κάθε περίπτωση, χρειάζονται δέκα δευτερόλεπτα ανθρώπινης εργασίας ανά CAPTCHA.
Θα μπορούσαμε άραγε να κάνουμε θετική χρήση αυτής της ανθρώπινης προσπάθειας;
Ο ιστότοπος reCAPTCHA χρησιμοποιεί ακριβώς αυτή την επίλυση CAPTCHA στην προσπάθεια που γίνεται για μηχανική "ανάγνωση" βιβλίων.

Για την αρχειοθέτηση των ανθρώπινων γνώσεων
και για να καταστεί πιο προσιτή η πληροφορία ,
πολλές σελίδες βιβλίων σαρώνονται φωτογραφικώς, και στη συνέχεια μετατρέπονται σε κείμενο με τη χρήση προγραμμάτων οπτικής αναγνώρισης χαρακτήρων (OCR).
Η μετατροπή της σκαναρισμένης εικόνας σε κείμενο είναι χρήσιμη γιατί ένα βιβλίο που εμφανίζεται φωτογραφημένο
α) παίρνει πολύ χώρο από απόψη bits και επομένως
β) αργεί πολύ η μετάδοσή του μέσω διαδικτύου ,
γ) χρειάζονται τεράστιοι αποθηκευτικοί χώροι
δ) ανεβαίνει πολύ το κόστος της προσπάθειας ψηφιοποίησης.

Η λύση είναι η σκαναρισμένη εικόνα του βιβλίου να "διαβαστεί" από ένα OCR
και να μετατραπεί σε χαρακτήρες κειμένου,
οπότε όλα τα παραπάνω προβλήματα λύνονται.
Το πρόβλημα όμως είναι ότι κανείς OCR δεν είναι τέλειος.
Κανείς δε διαβάζει τόσο καλά όσο το ανθρώπινο μάτι.

Επομένως
Το reCAPTCHA βελτιώνει τη διαδικασία της ψηφιοποίησης βιβλίων
με την αποστολή λέξεων που δεν είχαν αναγνωστεί
υπό μορφή CAPTCHA
τα οποία θα αποκρυπτογραφήσουν ανθρώπινα όντα!
Πιο συγκεκριμένα, κάθε λέξη που δεν είχε διαβαστεί σωστά από OCR
τοποθετείται πάνω σε μια εικόνα και χρησιμοποιείται ως CAPTCHA.
Αυτό είναι δυνατόν επειδή τα περισσότερα προγράμματα OCR ειδοποιούν
όταν μια λέξη δεν μπορεί να διαβάστει σωστά.

Σήμερα, το reCAPTCHA βοηθά την ψηφιοποίηση βιβλίων
από το Internet Archive και παλιές εκδόσεις των New York Times.

Φυσικά βοηθώντας,
ο ιστότοπος βοηθά με τη σειρά του
εσάς τους εθελοντές στην προστασία των διαδικτυακών σας εφαρμογών:
ιστότοπους, μπλογκ, ηλεκτρονικό ταχυδρομείο
προσφέροντας...
Για να δείτε όμως πώς ακριβώς γίνονται όλα αυτά
όσοι θέλετε να βοηθήσετε
επισκεφθείτε τον ιστότοπο
reCAPTCHA
http://recaptcha.net/learnmore.html

No comments: