::Alma Libre: Search | Η Google χρησιμοποιεί πλέον τη τεχνική OCR.

Η Google προχώρησε σε μια πολύ σημαντική πρωτοβουλία, ανακοινώνοντας ότι η διάσημη μηχανή αναζήτησης έχει πλέον τη δυνατότητα να διαβάζει scanned documents.

Ειδικότερα, η Google συμπεριέλαβε στη μηχανή της τον απαραίτητο κώδικα, εξοπλίζοντάς την με χαρακτηριστικά Optical Character Recognition [OCR], παρόμοια με αυτά που υπάρχουν στα σύγχρονα scanners.
Έτσι, οι ανιχνευτές της μηχανής μπορούν πλέον να αναγνώσουν και να κατηγοριοποιήσουν PDFs, παρέχοντας έτσι στους χρήστες του Διαδικτύου τη δυνατότητα να τα αναζητήσουν.

Το Google ανακοίνωσε χτες στο επίσημο blog του ότι θα κάνει πλέον index σκαναρισμένα pdf αρχεία μεταρέποντας τις εικόνες σε κείμενο με τη χρήση OCR (Optical Character Recognition).

This Optical Character Recognition (OCR) technology lets us convert a picture (of a thousand words) into a thousand words — words that can be searched and indexed, so that these valuable documents are more easily found.

Ένα παράδειγμα ενός σκαναρισμένου pdf αρχείου και η μετατροπή του σε html κείμενο από το Google.

Βήματα

Ο χρήστης ανεβάζει το αρχείο .pdf στο Ίντερνετ,
δημιουργεί ένα σύνδεσμο προς αυτό,
περιμένει μέχρι το Google να το βάλει στo index,
μόλις γίνει αυτό το αναζήτα στο ´Ιντερνετ και
μετά το ανόιγει σαν HTML.
Τέλος κάνει ένα Copy-Paste.

Πρόκειται για μια σημαντική εξέλιξη, καθώς τα εν λόγω έγγραφα δεν είναι λίγα σε αριθμό και πολλές φορές περιέχουν σημαντικές πληροφορίες που μπορούν να αξιοποιηθούν για επαγγελματικούς, εκπαιδευτικούς ή άλλους σκοπούς.

Η Google χρησιμοποιεί ένα open-source OCR software το οποίο ονομάζεται OCRopus.

OCRopus is a state-of-the-art document analysis and OCR system, featuring pluggable layout analysis, pluggable character recognition, statistical natural language modeling, and multi-lingual capabilities. (...) It's initially intended for high-throughput, high-volume document conversion efforts. We expect that it will also be an excellent OCR system for many other applications.

πηγές: pathfinder,gr, techtalk.gr , googlesystem