Logo
You
Code

Evitar contenido duplicado en tu propio sitio:como evitarlo

Autor hectormainar.com - http://www.youcode.com.ar/wiki/evitar-contenido-duplicado-en-tu-propio-sitiocomo-evitarlo-52

Aunque pienses inicialmente que no tienes dos páginas con el mismo contenido, piensa en estos casos, que trato de ayudarte a evitar:

 1.    ¿Tu página está accesible tanto en www.tudomino.com como en tudominio.com?


Entonces, todas tus páginas están duplicadas. Lo mejor es que redirijas todo el tráfico a uno de los dominios mediante una redirección 301. Así, tanto si se escribe www.tudominio.com/fichero.htmcomo si se escribe tudominio.com/fichero.htm el visitante podrá leer tu información, pero siempre desde www.tudominio.com . Para hacer esto, simplemente agrega un fichero llamado .htaccess a la raíz de tu sitio, con este sencillo código.


RewriteEngine On

RewriteBase /

RewriteCond %{HTTP_HOST} !^www.domain.com$ [NC]

RewriteRule ^(.*)$ http://www.domain.com/$1 [L,R=301]

En la indispensable Google Webmaster Tools puedes además indicar cuál es la forma correcta de escribir tu dominio, para que Google siempre enlace a la versión que propongas.


2.    ¿Tu página web tiene URLs amigables?

Entonces es probable que un artículo sea accesible tanto desde www.tudominio.com/index.php?ver=noticias&id=845 como en www.tudominio.com/la-gran-noticia . Y, por lo tanto, es fácil que alguien pueda enlazarla en la dirección errónea, o incluso que en algún lugar de tu sitio enlaces por error a la dirección no limpia. Por si acaso, puedes programar en el lenguaje de servidor en el que tengas programada tu página (PHP, ASP…) una comprobación que chequee el tipo de dirección desde la que se está viendo el documento, para redirigirlo a la dirección limpia automáticamente



3.    ¿Tienes una versión imprimible del sitio?


Antiguamente las versiones imprimibles de un sitio se creaban pasando un nuevo parámetro a la página cargada, o creando una nueva dirección que mostraba el contenido pero sin renderizar la plantilla general del sitio web. Actualmente, el CSS nos permite definir hojas de estilo exclusivas para presentación en pantalla, y para impresión. Si quieres tener una versión imprimible sin duplicar el contenido, lo mejor es que hagas uso de estas herramientas de CSS para ocultar los elementos que no quieres que se muestren en la impresión. Solo debes de crear páginas CSS para impresión y pantalla, que se sumarán a tu CSS general. Debes cargar estas hojas de estilo así:


<link rel="stylesheet" href="style.css" type="text/css"  media="screen" />

 <link rel="stylesheet" href="print.css" type="text/css"  media="print" />

De este modo, cuando un usuario esté visitando la página estándar en la que ver tu contenido, al pulsar Imprimir se imprimirá teniendo en cuenta este nuevo estilo y sin necesidad de cargar un documento distinto.




4.    ¿Tienes RSS, un listado de noticias antes de acceder a la noticia completa…?


No pongas toda la carne en el asador en la entradilla de la noticia: un resumen es un resumen, y el lugar para mostrar la noticia completa es la página donde se muestra la versión extendida de esta noticia. No el listado de noticias



5.    ¿Sueles remitirte a posts anteriores, o a contenidos previamente publicados?


No copies y pegues en el nuevo artículo el texto del anterior: perjudicarás levemente al artículo anterior, pero sobre todo harás un flaco favor para posicionar tu nuevo artículo. En su lugar, enlaza  al post antiguo y por un lado conseguirás que Google siga la estructura interna de tu sitio, y por otro que el lector interesado en el tema lea más páginas de tu sitio web.


6.    ¿Tu página está en diversos idiomas?

El albergar  documentos en diversos idiomas es correcto, y aunque sea el mismo documento, por estar traducido no se considerará en absoluto igual al original. Sin embargo, asegúrate de ser coherente con la traducción: si por ejemplo traduces la navegación de tu sitio a otros idiomas, pero el contenido principal sigue estando en el idioma original (por no poder traducir los posts o documentos largos del sitio), acabarás teniendo páginas como www.tudominio.com/es/la-gran-noticia y www.tudominio.com/en/la-gran-noticia en las que finalmente aparece exactamente el mismo contenido.



7.    ¿Tu página tiene parámetros?


Evítalos lo más posible, y opta por direcciones limpias. Los buscadores tratan de evitar los parámetros que identifica que no afectan al contenido que finalmente se muestra en el sitio, pero en muchos casos les resulta difícil saber qué parámetros debe incluir en la dirección, y cual no. Piensa en una dirección como www.tudominio.com/index.php?modulo=noticias&accion=lista&categoria=4&ord... . Para Google es realmente difícil el determinar el hecho de que los parámetros “ordenar”, “categoría”, “sesión” y “campaign” no afectan en absoluto al contenido de la página, mientras que el resto sí que condicionan el contenido que se mostrará. La solución no es sencilla, y en algunos casos implica una importante reprogramación del sitio, pero plantea tus nuevos proyectos con esa perspectiva.


8.    ¿Tu servidor es Windows?

Mucho cuidado con las mayúsculas y las minúsculas: tanto http://www.tudominio.com/Portada.htmlcomo http://www.tudominio.com/pORTADA.hTmL cargarán la misma página, pero para los indexadores, generalmente basados en Unix, esas dos páginas deberían de tener diferente contenido. Y comenzarán a indexarse todas las diferentes variantes en las que tus visitantes enlacen al sitio.


9.    ¿Alguna información de tu página ha cambiado de dirección?

Ante un rediseño, el uso de un nuevo gestor de contenidos, etc… es probable que la información de tu web ya no esté donde antes se encontraba. En esos casos, crea siempre que sea posible redirecciones 301 desde las direcciones antiguas a las nuevas. Si vas a mudar todo un sitio, en las Google Webmaster Tools tienes una herramienta que permite notificar este traslado al buscador.


10.    ¿Tienes páginas duplicadas pese a todo?

Lo mejor es que trates de evitar las direcciones duplicadas, pero si con todas las herramientas anteriores no logras evitar la duplicidad en tu sitio, afortunadamente cuentas con un par de últimos recursos. Los buscadores se han concienciado con el tema, y el año pasado nació la etiqueta Canonical, que aceptan desde Febrero de 2009 tanto Google como Microsoft y Yahoo, y que posteriormente han acogido otros como Ask. En cualquier página, pon en su zona <head> esta etiqueta:


<link rel="canonical" href="http://www.tudominio.com/direccion-buena.html"/>

Esta etiqueta le dice al buscador que, para la página que estás viendo, prefieres que se enlace como la dirección “Canónica”, que le indicas como parámetro.  Es decir, que si estás viendo la página www.tudominio.com/index.php?ver=noticias&id=845 y en esa etiqueta se indica que su URL canónica es www.tudominio.com/la-gran-noticia . Google comprobará entonces que ambas páginas devuelven el mismo resultado, y a la hora de mostrarlo en el buscador preferirá hacerlo como  www.tudominio.com/la-gran-noticia. La etiqueta resulta útil en estructuras más complejas, como el indicar que en una página con SSL prefieres que determinados documentos se vean desde http y no desde https, o que determinadas páginas carguen desde determinados subdominios. Con la etiqueta Noindex también podemos evitar que se indexe la página errónea, pero no disponemos de forma de indicarle cuál es la URL original, con lo cual el invento de la etiqueta Canonical es una buena noticia para controlar mejor el posicionamiento en buscadores de contenido duplicado.

Al usar esta etiqueta, refuerza esta forma de indicar prioridad a Google en una dirección respecto a otra siendo coherente con lo que en ella pongas, y a la hora de crear un sitemap incluye en el mismo sólo la dirección canónica. Utiliza también los robots.txt para impedir el acceso por parte de los buscadores a direcciones que no sean la principal.


Esas son diez de las maneras de luchar contra el contenido duplicado dentro de tu propio sitio: el enemigo en casa. Espero que os haya resultado interesante.




 

http://www.youcode.com.ar/wiki/evitar-contenido-duplicado-en-tu-propio-sitiocomo-evitarlo-52