Cómo proteger nuestras imágenes de los robots

Hay sitios que deliberadamente buscan e indexan imágenes agregándolas en su servidor. De esta forma, cualquiera que busque en Internet información referente a vuestra imagen, puede fácilmente llegar a ella, copiarla y re-publicarla después como propia, aunque nuestra imagen esté claramente protegida con copyright, y lo que es peor, sin siquiera haber pasado por vuestro sitio.

Es lo que le sucede a miles de fotógrafos, artistas, diseñadores Web, etc. Hasta se ha llegado a demandas judiciales en algunos casos.

Pero hay una manera muy sencilla de evitar esto, y más fácil es aún si poseemos nuestro propio dominio. Sólo es necesario un simple Robot.txt, del que ya hemos hablado antes.

Compondremos el Robot.txt de la siguiente manera:

User-agent: vscooter
User-agent: DittoSpyder
User-agent: Googlebot-image
User-agent: psbot
Disallow: /

User-agent: Googlebot
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$

En el caso de VSCOOTER, éste es el nombre del rastreador de imágenes de Alta Vista, con este código evitamos que la molesta arañita llamada “Scooter” entre en nuestro sitio para indexar archivos, pero al agregarle el prefijo V hablitamos al robot a indexar el sitio para figurar en las búsquedas. Lo mismo pasa con Google, al que sólo impediremos indexar imágenes con el código “GOOGLEBOT-IMAGES“.

DITTOSPYDER es el robot de Ditto.com. Lo único que hace este sitio es indexar imágenes, así que no lo queremos para nada dentro del nuestro, ¿verdad?. PSBOT, de Picsearch, otro sitio que sólo indexa imágenes, tampoco lo dejaremos entrar.

Vale aclarar que hemos puesto como ejemplo los archivos de imagen, pero también sirve para otros archivos, como los multimedia (Wav, MP3, Zip, Mid, etc.), sólo basta con agregarlos al Robot.txt y poner los códigos de los robots que queramos evitar.

Otra forma de proteger nuestras imágenes es el uso de algunos Meta Tag, entre <head> y </head> en nuestro html, pondremos lo siguiente:

<META NAME=”robots” CONTENT=”noimageindex”>

El problema con este sistema es que no todos los robots reconocen este tag, aunque funciona perfectamente con Alta Vista. Pero si verdaderamente queremos proteger nuestras imágenes, cambiaremos el tag por este:

<META NAME=”robots” CONTENT=”noindex”>

Este tag es como un arma de doble filo, ya que corremos el riesgo de que la totalidad de nuestro sitio quede fuera del rastreo.

Luego de hacer esto, deberemos confirmar que los sitios han eliminado nuestras imágenes de su servidor. Con Alta Vista, deberemos indexar nuestro sitio nuevamente y ellos automáticamente removerán el material prohibido una vez que encuentren el Robot.txt.

En el caso de Ditto, deberemos pedir que eliminen nuestro sitio de su base de datos, mediante el link de contacto.

Google borrará automáticamente las imágenes la próxima vez que rastree nuestra página, por lo que no es necesario realizar ninguna acción además del Robot.txt.

Escrito por Marcelo Avero | 11 de Abril de 2008 | 3 comentarios
Tutoriales.

Robot.txt: dile a GoogleBot qué es lo que quieres

Secretos de robot.txtGoogleBot es una herramienta ya conocida por cualquier webmaster que quiera posicionar su sitio Web. ¿Pero qué pasa si por alguna razón no queremos que GoogleBot rastree una parte o todo nuestro sitio?

El generador Robot.txt fue diseñado especialmente para esta causa, y además se maneja de forma sencilla, evitando que nos “atasquemos” en alguna configuración que no entendamos. Tan simple como ingresar los directorios o archivos que no queremos que sean rastreados.

¿Cómo creamos un Robot.txt? bien fácil, sólo necesitamos el bloc de notas de Windows (por dar un ejemplo, cualquier editor de textos funciona), crear determinados códigos que mostraremos a continuación, guardarlo como “robot.txt“, y finalizando subiendo el archivo resultante al directorio raíz de nuestra Web.

Si necesitamos impedir que los robots accedan a determinadas secciones del sitio, escribiremos los siguientes comandos:

  • User-agent: *
  • Disallow: /cgi-bin/
  • Disallow: /misc/sitestats/

Si lo que queremos que los robots rastreen sólo una parte de nuestra Web:

  • User-agent:slurp.so/
  • Disallow: /cgi-bin/
  • Disallow: /secure/
  • Disallow: /products/
  • Disallow:/misc/sitestats/

También tenemos la opción de permitir el acceso a sólo un robot de nuestra preferencia, evitando el ingreso de los otros:

  • User-agent: Googlebot/1.0
  • Disallow:
  • User-agent: *
  • Disallow: /

Si lo que queremos es que ningún robot rastree nuestra página:

  • User-agent: *
  • Disallow: /

Antes de generar este último código, debemos estar bien seguros de que es éso lo que queremos, porque con el mismo, nuestra página no figurará en ningún buscador.

Pequeñas cosas que deberemos tener en cuenta:

No todos los motores de búsqueda reconocen el archivo robot.txt. A pesar de que la mayoría lo hace, algunos no.

robots.txt es sólo una petición. Hay algunos robots que de manera inescrupulosa pasan por alto al archivo, y rastrearán nuestro sitio de todas maneras. Si queremos evitar esto, deberemos proteger nuestra Web con una buena contraseña, en lugar de confiar en robots.txt.

Escrito por Marcelo Avero | 9 de Abril de 2008 | 3 comentarios
Tutoriales.