Download: Fast, Fun, Awesome
Showing posts with label CAPTCHA. Show all posts
Showing posts with label CAPTCHA. Show all posts

Sunday, November 30, 2008

Τα CAPTCHA βοηθούν στην ψηφιοποίηση βιβλίων




Ψηφιοποίηση βιβλίων στη στιγμή!

Ο ιστότοπος reCAPTCHA είναι μια δωρεάν υπηρεσία που βοηθά την ψηφιοποίηση βιβλίων.

Το CAPTCHA είναι ένα πρόγραμμα που μπορεί να διακρίνει αν ο χρήστης είναι ένα ανθρώπινο ον ή υπολογιστής. Έχετε δει πιθανώς αυτές τις πολύχρωμες εικόνες με παραμορφωμένο κείμενο στο κάτω μέρος διαφόρων ιστοσελίδων.
Τα CAPTCHA χρησιμοποιούνται σε πολλούς δικτυακούς τόπους για να αποτραπεί η κατάχρησή τους από τα "bots", δηλαδή τα αυτοματοποιημένα προγράμματα που δημιουργούν συνήθως γραπτά ανεπιθύμητα μηνύματα (spam). Κανείς ηλεκτρονικός υπολογιστής δεν μπορεί να διαβάσει παραμορφωμένο κείμενο, ενώ οι άνθρωποι μπορούν, οπότε τα bots δεν μπορούν να εισβάλουν σε ιστότοπους που προστατεύονται από CAPTCHA.

Περίπου 60 εκατομμύρια CAPTCHA επιλύονται από ανθρώπους σε όλο τον κόσμο κάθε μέρα. Σε κάθε περίπτωση, χρειάζονται δέκα δευτερόλεπτα ανθρώπινης εργασίας ανά CAPTCHA.
Θα μπορούσαμε άραγε να κάνουμε θετική χρήση αυτής της ανθρώπινης προσπάθειας;
Ο ιστότοπος reCAPTCHA χρησιμοποιεί ακριβώς αυτή την επίλυση CAPTCHA στην προσπάθεια που γίνεται για μηχανική "ανάγνωση" βιβλίων.

Για την αρχειοθέτηση των ανθρώπινων γνώσεων
και για να καταστεί πιο προσιτή η πληροφορία ,
πολλές σελίδες βιβλίων σαρώνονται φωτογραφικώς, και στη συνέχεια μετατρέπονται σε κείμενο με τη χρήση προγραμμάτων οπτικής αναγνώρισης χαρακτήρων (OCR).
Η μετατροπή της σκαναρισμένης εικόνας σε κείμενο είναι χρήσιμη γιατί ένα βιβλίο που εμφανίζεται φωτογραφημένο
α) παίρνει πολύ χώρο από απόψη bits και επομένως
β) αργεί πολύ η μετάδοσή του μέσω διαδικτύου ,
γ) χρειάζονται τεράστιοι αποθηκευτικοί χώροι
δ) ανεβαίνει πολύ το κόστος της προσπάθειας ψηφιοποίησης.

Η λύση είναι η σκαναρισμένη εικόνα του βιβλίου να "διαβαστεί" από ένα OCR
και να μετατραπεί σε χαρακτήρες κειμένου,
οπότε όλα τα παραπάνω προβλήματα λύνονται.
Το πρόβλημα όμως είναι ότι κανείς OCR δεν είναι τέλειος.
Κανείς δε διαβάζει τόσο καλά όσο το ανθρώπινο μάτι.

Επομένως
Το reCAPTCHA βελτιώνει τη διαδικασία της ψηφιοποίησης βιβλίων
με την αποστολή λέξεων που δεν είχαν αναγνωστεί
υπό μορφή CAPTCHA
τα οποία θα αποκρυπτογραφήσουν ανθρώπινα όντα!
Πιο συγκεκριμένα, κάθε λέξη που δεν είχε διαβαστεί σωστά από OCR
τοποθετείται πάνω σε μια εικόνα και χρησιμοποιείται ως CAPTCHA.
Αυτό είναι δυνατόν επειδή τα περισσότερα προγράμματα OCR ειδοποιούν
όταν μια λέξη δεν μπορεί να διαβάστει σωστά.

Σήμερα, το reCAPTCHA βοηθά την ψηφιοποίηση βιβλίων
από το Internet Archive και παλιές εκδόσεις των New York Times.

Φυσικά βοηθώντας,
ο ιστότοπος βοηθά με τη σειρά του
εσάς τους εθελοντές στην προστασία των διαδικτυακών σας εφαρμογών:
ιστότοπους, μπλογκ, ηλεκτρονικό ταχυδρομείο
προσφέροντας...
Για να δείτε όμως πώς ακριβώς γίνονται όλα αυτά
όσοι θέλετε να βοηθήσετε
επισκεφθείτε τον ιστότοπο
reCAPTCHA
http://recaptcha.net/learnmore.html

Ψηφιοποίηση βιβλίων και CAPTCHA

Ψηφιοποίηση βιβλίων στη στιγμή!

Ο ιστότοπος reCAPTCHA είναι μια δωρεάν υπηρεσία που βοηθά την ψηφιοποίηση βιβλίων.

Το CAPTCHA είναι ένα πρόγραμμα που μπορεί να πει αν ο χρήστης είναι ένα ανθρώπινο ή έναν υπολογιστή. Έχετε δει πιθανώς αυτούς - πολύχρωμες εικόνες με παραμορφωμένο κείμενο στο κάτω μέρος του Web εντύπων. CAPTCHAs χρησιμοποιούνται σε πολλούς δικτυακούς τόπους για να αποτραπεί η κατάχρηση από "bots", ή αυτοματοποιημένα προγράμματα να δημιουργούν συνήθως γραπτή spam. Δεν προγράμματος ηλεκτρονικού υπολογιστή μπορεί να διαβάσει παραμορφωμένο κείμενο, καθώς και ανθρώπους μπορεί, έτσι δεν μπορεί να πλοηγηθεί bots χώρων που προστατεύονται από CAPTCHAs.

Περίπου 60 εκατομμύρια CAPTCHAs έχουν επιλυθεί με ανθρώπους σε όλο τον κόσμο κάθε μέρα. Σε κάθε περίπτωση, περίπου δέκα δευτερόλεπτα από την ανθρώπινη στιγμή είναι να δαπανώνται. Μόνα τους, ότι δεν είναι πολύ χρόνο, αλλά στο συνολικό αυτά τα μικρά παζλ καταναλώνουν περισσότερα από 150000 ώρες εργασίας κάθε ημέρα. Κι αν θα μπορούσαμε να κάνουμε θετική χρήση αυτής της ανθρώπινης προσπάθειας; reCAPTCHA κάνει ακριβώς ότι channeling από την προσπάθεια που δαπανάται σε επίλυση CAPTCHAs online "ανάγνωση" βιβλία.

Για την αρχειοθέτηση των ανθρώπινων γνώσεων και να καταστεί πιο προσιτή η πληροφορία για τον κόσμο, πολλά έργα βρίσκονται σε ψηφιακή μορφή σωματικής βιβλία που γράφτηκαν πριν από την ηλικία υπολογιστή. Οι σελίδες του βιβλίου είναι να σαρωθούν φωτογραφικώς, και στη συνέχεια μετατρέπονται σε κείμενο με τη χρήση "Οπτική αναγνώριση χαρακτήρων (OCR). Η μετατροπή σε κείμενο είναι χρήσιμο γιατί ένα βιβλίο που προκαλεί σάρωσης εικόνων, οι οποίες είναι δύσκολο να φυλάσσεται για μικρές συσκευές, ακριβά για να κατεβάσετε και να μην μπορούν να ερευνηθούν. Το πρόβλημα είναι ότι OCR δεν είναι τέλειος.


reCAPTCHA βελτιώνει τη διαδικασία της ψηφιοποίησης βιβλίων από την αποστολή λέξεις που δεν μπορεί να αναγνωστεί από ηλεκτρονικούς υπολογιστές στο Διαδίκτυο με τη μορφή CAPTCHAs για τους ανθρώπους να αποκρυπτογραφήσει. Πιο συγκεκριμένα, κάθε λέξη που δεν μπορεί να διαβάσει σωστά από OCR τοποθετείται πάνω σε μια εικόνα και χρησιμοποιείται ως CAPTCHA. Αυτό είναι δυνατόν επειδή τα περισσότερα προγράμματα OCR σας ειδοποιεί όταν μια λέξη δεν μπορεί να διαβάσει σωστά.

Αλλά εάν ένας υπολογιστής δεν μπορεί να διαβάσει μια CAPTCHA, πώς λειτουργεί το σύστημα γνωρίζει την ορθή απάντηση στο παζλ; Με τον εξής τρόπο: Κάθε νέα λέξη που δεν μπορεί να διαβάσει σωστά από OCR ανήκει σε έναν χρήστη, σε συνδυασμό με μια άλλη λέξη για την οποία η απάντηση είναι ήδη γνωστή. Ο χρήστης είναι στη συνέχεια ζήτησε να διαβάσει δύο λέξεις. Αν λύσουμε το ένα για το οποίο η απάντηση είναι γνωστό, το σύστημα αναλαμβάνει την απάντησή τους είναι σωστές για το νέο. Το σύστημα στη συνέχεια δίνει τη νέα εικόνα σε μια σειρά άλλων ατόμων να καθορίζουν, με υψηλότερη εμπιστοσύνη, αν η αρχική απάντηση ήταν σωστή.

Σήμερα, είμαστε βοήθειας για την ψηφιοποίηση βιβλίων από το Internet Archive και παλιές εκδόσεις των New York Times.

Πώς μπορώ να βοηθήσω;
Για την επίτευξη του στόχου μας για την ψηφιοποίηση βιβλίων, χρειαζόμαστε τη βοήθειά σας.

Εάν εκτελείτε μια ιστοσελίδα που πάσχει από προβλήματα με το spam, μπορείτε να θέσετε reCAPTCHA στο δικτυακό σας τόπο. Για ορισμένες εφαρμογές (όπως το WordPress και mediawiki), έχουμε plugins που σας επιτρέπουν να χρησιμοποιήσετε reCAPTCHA ΧΩΡΙΣ εγγράφως κάθε κωδικό. Έχουμε, επίσης, εύκολο στη χρήση κωδικού για την κοινή web γλώσσες προγραμματισμού όπως η PHP.

Εάν έχετε e-mail spam έχουμε μια μέθοδο που θα σας βοηθήσει να την μειώσει. Πολλές spammers περιηγείστε στον παγκόσμιο ιστό ψάχνει για διευθύνσεις ηλεκτρονικού ταχυδρομείου. Όταν βλέπουν μια διεύθυνση ηλεκτρονικού ταχυδρομείου σε μια ιστοσελίδα, στέλνουν spam με τη διεύθυνση. Mailhide σας επιτρέπει να με ασφάλεια μετά την ηλεκτρονική σας διεύθυνση στο διαδίκτυο. Mailhide λαμβάνει μια διεύθυνση, όπως jsmith@example.com και μετατρέπει σε JSM ... @ example.com. Για να αποκαλύψει τη διεύθυνση, ο χρήστης πρέπει να πατήσει για τον "..." και επίλυση ενός reCAPTCHA. Αν χρησιμοποιείτε την έκδοση του Mailhide την ηλεκτρονική σας διεύθυνση, spammers δεν θα μπορέσει να βρει το πραγματικό σας διεύθυνση ηλεκτρονικού ταχυδρομείου και θα έχετε λιγότερο spam.