Google utilise la technologie OCR pour indexer les documents scannés
Un pas de plus dans le déferlement Googlien pour alimenter son vorace index.
On connaissait déjà sa capacité d’indexation des fichiers PDF textuels, et en plein débat sur l’annonce de sa volonté à indexer les contenus protégés (les contenus des zones membres…), voici qu’il enfonce le clou en utilisant la technologie OCR pour indexer les images scannées des PDF.
OCR = Optical Character Recognition
Bien entendu, le contenu de ces PDF se retrouve donc indexé dans les SERP, jugez plutôt cet exemple :
http://www.google.com/search?q=repairing+aluminum+wiring
Vous constatez qu’il est possible d’afficher la source en HTML. Certes la technologie OCR n’est pas fiable à 100% mais cela a le mérite de donner une chance de crawler ses contenus.
Est-ce une bonne chose ? En tout cas, il faudra protéger autrement ses documents sensibles si l’on ne souhaite pas les voir livrés en pâture aux searchers.
Comment on justifie cette nouvelle intrusion dans ces supports bien souvent utilisés par les universitaires et chercheurs chez Google :
« someone somewhere thought they were valuable enough to share with the world »
Mais bien sûr, quand on vous dit que ces gens là sont de vrais philanthropes ![]()
L’article officiel :
http://googleblog.blogspot.com/2008/10/picture-of-thousand-words.html
PS : Si je pratiquais quelques pratiques Black Hat, je pourrais me dire que je n’aurais même pas besoin d’essayer de donner un lifting à un texte scanné et retranscrit par OCR pour essayer de le rendre potable, il suffirait de le laisser tel quel dans un PDF.
Si j’étais Black Hat…




novembre 19th, 2008 at 16:03
Je n’avais pas pris le temps de regarder un exemple concret, mais c’est clair que leur technologie OCR fonctionne carrément bien…
Quelques exemples en français parmi des textes scannés pas très clair que j’ai trouvé :
http://www.google.fr/search?hl=fr&as_qdr=all&q=intitle%3Ascan+concours+filetype%3Apdf
janvier 20th, 2009 at 21:05
Si certains s’imaginaient pouvoir garder protégées des données en clair sur le web, il va falloir changer de méthode!
mars 15th, 2009 at 17:33
« to share with the world » ou tout donner à google?
juillet 30th, 2010 at 16:39
Google propose aujourd’hui un service d’OCR pour Google Docs. Vous importez une image et il propose un texte à la place.
ENorme !