Sunday, November 30, 2008

Ψηφιοποίηση βιβλίων και CAPTCHA

Ψηφιοποίηση βιβλίων στη στιγμή!

Ο ιστότοπος reCAPTCHA είναι μια δωρεάν υπηρεσία που βοηθά την ψηφιοποίηση βιβλίων.

Το CAPTCHA είναι ένα πρόγραμμα που μπορεί να πει αν ο χρήστης είναι ένα ανθρώπινο ή έναν υπολογιστή. Έχετε δει πιθανώς αυτούς - πολύχρωμες εικόνες με παραμορφωμένο κείμενο στο κάτω μέρος του Web εντύπων. CAPTCHAs χρησιμοποιούνται σε πολλούς δικτυακούς τόπους για να αποτραπεί η κατάχρηση από "bots", ή αυτοματοποιημένα προγράμματα να δημιουργούν συνήθως γραπτή spam. Δεν προγράμματος ηλεκτρονικού υπολογιστή μπορεί να διαβάσει παραμορφωμένο κείμενο, καθώς και ανθρώπους μπορεί, έτσι δεν μπορεί να πλοηγηθεί bots χώρων που προστατεύονται από CAPTCHAs.

Περίπου 60 εκατομμύρια CAPTCHAs έχουν επιλυθεί με ανθρώπους σε όλο τον κόσμο κάθε μέρα. Σε κάθε περίπτωση, περίπου δέκα δευτερόλεπτα από την ανθρώπινη στιγμή είναι να δαπανώνται. Μόνα τους, ότι δεν είναι πολύ χρόνο, αλλά στο συνολικό αυτά τα μικρά παζλ καταναλώνουν περισσότερα από 150000 ώρες εργασίας κάθε ημέρα. Κι αν θα μπορούσαμε να κάνουμε θετική χρήση αυτής της ανθρώπινης προσπάθειας; reCAPTCHA κάνει ακριβώς ότι channeling από την προσπάθεια που δαπανάται σε επίλυση CAPTCHAs online "ανάγνωση" βιβλία.

Για την αρχειοθέτηση των ανθρώπινων γνώσεων και να καταστεί πιο προσιτή η πληροφορία για τον κόσμο, πολλά έργα βρίσκονται σε ψηφιακή μορφή σωματικής βιβλία που γράφτηκαν πριν από την ηλικία υπολογιστή. Οι σελίδες του βιβλίου είναι να σαρωθούν φωτογραφικώς, και στη συνέχεια μετατρέπονται σε κείμενο με τη χρήση "Οπτική αναγνώριση χαρακτήρων (OCR). Η μετατροπή σε κείμενο είναι χρήσιμο γιατί ένα βιβλίο που προκαλεί σάρωσης εικόνων, οι οποίες είναι δύσκολο να φυλάσσεται για μικρές συσκευές, ακριβά για να κατεβάσετε και να μην μπορούν να ερευνηθούν. Το πρόβλημα είναι ότι OCR δεν είναι τέλειος.


reCAPTCHA βελτιώνει τη διαδικασία της ψηφιοποίησης βιβλίων από την αποστολή λέξεις που δεν μπορεί να αναγνωστεί από ηλεκτρονικούς υπολογιστές στο Διαδίκτυο με τη μορφή CAPTCHAs για τους ανθρώπους να αποκρυπτογραφήσει. Πιο συγκεκριμένα, κάθε λέξη που δεν μπορεί να διαβάσει σωστά από OCR τοποθετείται πάνω σε μια εικόνα και χρησιμοποιείται ως CAPTCHA. Αυτό είναι δυνατόν επειδή τα περισσότερα προγράμματα OCR σας ειδοποιεί όταν μια λέξη δεν μπορεί να διαβάσει σωστά.

Αλλά εάν ένας υπολογιστής δεν μπορεί να διαβάσει μια CAPTCHA, πώς λειτουργεί το σύστημα γνωρίζει την ορθή απάντηση στο παζλ; Με τον εξής τρόπο: Κάθε νέα λέξη που δεν μπορεί να διαβάσει σωστά από OCR ανήκει σε έναν χρήστη, σε συνδυασμό με μια άλλη λέξη για την οποία η απάντηση είναι ήδη γνωστή. Ο χρήστης είναι στη συνέχεια ζήτησε να διαβάσει δύο λέξεις. Αν λύσουμε το ένα για το οποίο η απάντηση είναι γνωστό, το σύστημα αναλαμβάνει την απάντησή τους είναι σωστές για το νέο. Το σύστημα στη συνέχεια δίνει τη νέα εικόνα σε μια σειρά άλλων ατόμων να καθορίζουν, με υψηλότερη εμπιστοσύνη, αν η αρχική απάντηση ήταν σωστή.

Σήμερα, είμαστε βοήθειας για την ψηφιοποίηση βιβλίων από το Internet Archive και παλιές εκδόσεις των New York Times.

Πώς μπορώ να βοηθήσω;
Για την επίτευξη του στόχου μας για την ψηφιοποίηση βιβλίων, χρειαζόμαστε τη βοήθειά σας.

Εάν εκτελείτε μια ιστοσελίδα που πάσχει από προβλήματα με το spam, μπορείτε να θέσετε reCAPTCHA στο δικτυακό σας τόπο. Για ορισμένες εφαρμογές (όπως το WordPress και mediawiki), έχουμε plugins που σας επιτρέπουν να χρησιμοποιήσετε reCAPTCHA ΧΩΡΙΣ εγγράφως κάθε κωδικό. Έχουμε, επίσης, εύκολο στη χρήση κωδικού για την κοινή web γλώσσες προγραμματισμού όπως η PHP.

Εάν έχετε e-mail spam έχουμε μια μέθοδο που θα σας βοηθήσει να την μειώσει. Πολλές spammers περιηγείστε στον παγκόσμιο ιστό ψάχνει για διευθύνσεις ηλεκτρονικού ταχυδρομείου. Όταν βλέπουν μια διεύθυνση ηλεκτρονικού ταχυδρομείου σε μια ιστοσελίδα, στέλνουν spam με τη διεύθυνση. Mailhide σας επιτρέπει να με ασφάλεια μετά την ηλεκτρονική σας διεύθυνση στο διαδίκτυο. Mailhide λαμβάνει μια διεύθυνση, όπως jsmith@example.com και μετατρέπει σε JSM ... @ example.com. Για να αποκαλύψει τη διεύθυνση, ο χρήστης πρέπει να πατήσει για τον "..." και επίλυση ενός reCAPTCHA. Αν χρησιμοποιείτε την έκδοση του Mailhide την ηλεκτρονική σας διεύθυνση, spammers δεν θα μπορέσει να βρει το πραγματικό σας διεύθυνση ηλεκτρονικού ταχυδρομείου και θα έχετε λιγότερο spam.

No comments: