Parcourir > Home / SEO / Référencement / Google utilise la technologie OCR pour indexer les documents scannés

Google utilise la technologie OCR pour indexer les documents scannés

31 octobre 2008 Poste dans SEO / Référencement

Un pas de plus dans le déferlement Googlien pour alimenter son vorace index.

On connaissait déjà sa capacité d’indexation des fichiers PDF textuels, et en plein débat sur l’annonce de sa volonté à indexer les contenus protégés (les contenus des zones membres…), voici qu’il enfonce le clou en utilisant la technologie OCR pour indexer les images scannées des PDF.

OCR = Optical Character Recognition

Bien entendu, le contenu de ces PDF se retrouve donc indexé dans les SERP, jugez plutôt cet exemple :
http://www.google.com/search?q=repairing+aluminum+wiring

Vous constatez qu’il est possible d’afficher la source en HTML. Certes la technologie OCR n’est pas fiable à 100% mais cela a le mérite de donner une chance de crawler ses contenus.

Est-ce une bonne chose ? En tout cas, il faudra protéger autrement ses documents sensibles si l’on ne souhaite pas les voir livrés en pâture aux searchers.

Comment on justifie cette nouvelle intrusion dans ces supports bien souvent utilisés par les universitaires et chercheurs chez Google :

« someone somewhere thought they were valuable enough to share with the world »

Mais bien sûr, quand on vous dit que ces gens là sont de vrais philanthropes :D
L’article officiel :
http://googleblog.blogspot.com/2008/10/picture-of-thousand-words.html

PS : Si je pratiquais quelques pratiques Black Hat, je pourrais me dire que je n’aurais même pas besoin d’essayer de donner un lifting à un texte scanné et retranscrit par OCR pour essayer de le rendre potable, il suffirait de le laisser tel quel dans un PDF.
Si j’étais Black Hat…

Blog Marketing