Copia de contenido en WordPress. ¿Cómo evitarla?

Como evitar duplicados y copia de contenido en Wordpress

En este artículo vamos a enfocar el cómo, qué y porqué del contenido duplicado en tu blog. Veremos como se hace la copia de contenido en WordPress o como se genera contenido duplicado en un blog. Y todo desde un punto de vista enfocado  a gente que simplemente no sabe o no le importan los tecnicismos o  lo que es Panda.

En este artículo no tratamos de la seguridad de la plataforma y como reforzarla, sino de sus contenidos. .

¿Qué es el contenido duplicado?

Contenido duplicado, que mal nos suena a todos esas dos palabras. Son siempre sinónimo de problemas.

contenido_duplicado

Hoy en día, a alguien que simplemente quiera escribir o publicar un blog casi se le exigen o presuponen conocimientos de SEO, marketing digital o programación web. Me parece ridículo y voy a intentar no caer en ese error en este artículo… repito, lo voy a intentar.

Trataremos el problema que nos ocupa, el de los duplicados y copia de contenido en WordPress o plataforma que hayamos elegido, desde las distintas formas en que se origina.

Nuestro contenido puede verse duplicado por tres razones principales:

  • Por errores propios de publicación
  • Por acciones premeditadas de sindicación
  • Por plagio de nuestro contenido por parte de terceros

La razón por las que nos preocupa tanto el contenido duplicado es principalmente el llamado algoritmo Panda de Google. Este algoritmo penaliza los blogs o páginas que hacen spam de contenido duplicado.

Intentemos entender mejor cómo funciona este algoritmo. Imaginaos un oso Panda, blanco y negro. Este algoritmo hace que a cada página que es revisada se le ponga una etiqueta de blanco o negro, válido o inválido, permitido o prohibido. Así debería ser en teoría. Pero por experiencia os invito a que penséis en el Panda de Google como en un osito gris un poco despistado. Este osito no tiene claro cual es el límite real de cuando es contenido duplicado, no tiene claro de cuando debe ignorarlo o penalizarlo y muchas veces tampoco es capaz de definir quien es el verdadero creador original de un contenido.

Para ponérselo fácil al osito, la primera norma desde ahora es que nunca debemos generar contenido duplicado, ni siquiera fragmentos, ya sea nuestro o de otros, si no quieres ser penalizado.

Como nuestro adorable Panda gris es algo disperso, pasa lo siguiente:

  • En muchas ocasiones Google posiciona mejor un contenido copiado si el sitio que copia tiene más relevancia que el nuestro.
  • Google nos penaliza porque considera como duplicado un contenido que nosotros no lo entendemos como tal.
  • Hay una frontera muy difusa entre cuando Google penaliza o simplemente cuando no indexa ese contenido duplicado.

Cómo detectar contenido duplicado

Nuestra primera línea de defensa es detectar si tenemos contenido duplicado o si alguien nos está copiando contenido. Hay que ser conscientes del problema antes de poder solucionarlo. A pesar de que existen plugins para detección de duplicados en nuestro blog y es fácil que los encontréis con una búsqueda, voy a intentar no caer en el error de solucionarlo todo a base de instalarlos. Cada uno nuevo que instalemos es una razón más para que nuestro blog falle en una actualización o que sea cada vez mas lento, y ya os adelanto que la velocidad es un factor de posicionamiento cada vez más importante. Así que evitemos los plugin en lo posible.

Hay herramientas de pago fantásticas, pero nosotros queremos algo sencillo, efectivo y a poder ser, gratis. Por ejemplo:

CopyScape es una herramienta efectiva para detectar duplicados externos. Nos hallará contenido duplicado de nuestra web en otras páginas, así veremos quien nos plagia o si por desgracia, hemos sido casualmente muy exactos al tratar un tema con lo escrito anteriormente por otro blogger.

Siteliner es el hermanito del anterior y se centra en las copias internas, es decir, contenido duplicado en un mismo blog o página.

La herramienta de Google Webmasters Tools también nos ayudará a encontrarlo, y además nos dará herramientas adicionales igual de importantes, como avisarnos de errores de accesibilidad o de configuración en nuestro sitemap. En serio, si no lo estás usando, create una cuenta de gmail ya y date de alta inmediatamente. Tomo nota y en breve os haré llegar un artículo mas específico sobre como trabajar con esta herramienta.

Cuando hablemos de como protegernos, veremos que podemos colocar enlaces “ocultos” hacia nuestro contenido original en nuestros posts, con el uso de código php o de plugins. Pues bien, herramientas como la nombrada Webmasters Tools o comandos tan sencillos en la casilla de búsqueda de google como este:

link:http://www.tusitio.com

descubrirán a la gente que te está enlazando. Algunos lo estarán haciendo inadvertidamente si han caído en la trampa de copiar tu contenido con tu enlace oculto. Acostumbraos a usar esas herramientas con regularidad, es vuestra principal línea de defensa ante el osito Panda y los plagios.

Evitar duplicados en tu contenido WordPress

Pese a que enfocaré este artículo a WordPress, todo lo dicho es aplicable a otros CMS o plataformas de blogging.

Bajo los ojos de Google, es fácil caer en la copia de contenido en WordPress si no lo configuramos o usamos correctamente.

Para solucionar estos casos con facilidad os recomiendo, ahora si, el plugin de SEO de Yoast para generar un buen “sitemap” y el uso de WebmasterTools. No voy a entrar en temas técnicos y directamente os voy a dar una serie de consejos.

  • Imaginaos que sois el único autor que firma artículos de vuestro blog, pues bien, estáis generando contenido duplicado sin querer. Mediante Yoast podemos configurar el “author” como ‘no index, follow’ (que quiere decir …Google, mírate el enlace pero no lo indexes).
  • Usa pocas etiquetas. Un archivo de etiquetas con solo un post es un duplicado exacto de este
  • Usa pocas categorías, no pases de 7, y ponles siempre “meta etiquetas”, título y descripción y usa enlaces de paginación (anterior, posterior). Un archivo de categoría con solo un post es una copia exacta del post original.
  • Configura para que en RSS y archivos de contenidos, WordPress use los “excerpts” o resúmenes y no el contenido completo.
  • No indexes cosas de poca relevancia o de contenido pobre. Dales el atributo de “noindex” con el plugin de Yoast.

¿Porque debo hacer esto?

Porque wordpress y su funcionamiento permite llegar a un mismo contenido desde diferentes direcciones. Para explicarlo muy básicamente, supongamos una receta de cocina escrita por pepito, nuestro apreciado WordPress puede encontrarla de varias formas:

“/author/pepito/articulo” o “categorias/cocina/articulo” por ejemplo.

Pues eso nuestro Panda gris lo verá como negro. Ante la duda, queremos que google nos indexe únicamente páginas y entradas. Categorías, Autor, Taxonomías, etc… indexar todas ellas puede generar duplicados si no lo hacemos con cuidado.

Y ahora viene nuestro querido Webmaster Tools. Además de detectarnos contenido duplicado que corregiremos posteriormente configurando correctamente el plugin de Yoast hace una gran cosa por nosotros. Permite canonizar nuestra URL. Técnicamente esto debe estar hecho por nuestro servidor y específicamente en el archivo .htaccess (después hablaremos de el) pero esta es la forma de oficializarlo ante Google.

Google entiende como www.tusitio.com y tusitio.com como direcciones diferentes… así pues… hay copia de contenido. Da de alta ambas direcciones en la herramienta, pulsa sobre cada uno de ellas, selecciona el icono parecido a un engranaje y pulsa configuración del sitio. Pon la misma URL principal, la que prefieras, en ambos.

contenido canonico

Publicar contenido duplicado en otro blog

Hasta ahora hemos visto formas involuntarias de generar contenido duplicado. Pero también podemos hacerlo intencionadamente, re-publicando contenido (contenido sindicado) en otras plataformas.

Pongamos que quieres publicar un artículo tuyo en Medium para darle más difusión.

La primera pregunta que debes hacerte es ¿para qué? Hacer esto es peligroso porque nuestro Panda puede decidir que el contenido original es el de Medium y no el de tu blog.

Si lo haces para conseguir mas “leads”, no lo hagas. Punto. Las ventas o acciones de las personas que visiten tu página las conseguirás en tu blog, no desde sitios con contenido sindicado.

Si lo haces para conseguir mayor visibilidad, generar “branding”, es posible que nos compense si acertamos con el medio y el target que accede a este, pero debes tomar precauciones y asumir las posibles consecuencias.

  • Si publicas en un lugar con mayor autoridad que tu blog seguramente acabarás penalizado o en el mejor de los casos, por debajo en los resultados de búsqueda.
  • Asegúrate que el sitio donde publicas tu contenido duplicado cumple dos condiciones. La primera que exista un enlace a la localización del artículo original (no a la homepage) citándolo como fuente. Y la segunda que en la cabecera de la página con contenido duplicado aparezca este código: <link rel=”canonical” href=”http://tusitio.com/articulooriginal”>
  • En casos como Medium no podrás haces esto. Medium si te pone un enlace a tu artículo original, pero esto es lo que aparece en su código interno: <link rel=”canonicalhref=”/@tuusuario/articulo-original-4419e8b033b9″>. No es lo que queremos, así que pon tú ese código en tu página original, espera que Panda lo entienda y bajo ningún pretexto enlaces tu contenido original con la copia.
  • Modifica ligeramente título e introducción. Más que por evitar penalizaciones, para adaptarte al público objetivo del nuevo medio.
  • No exageres, sindicar en un par de medios puede tener sentido, generar copias en 8 medios distintos será Spam, seguro.

Con todo esto, el motor de Google, que cada día es más hábil, debería tener claro cual es el contenido original y no debería penalizarte. Pero te he hablado de consecuencias, y no es 100% seguro que nuestro Panda gris acierte, así que decide si te compensa el riesgo de sacrificar posicionamiento a cambio de visibilidad.

Evitar copia de contenido en WordPress u otra plataforma.

Por fin, la más desagradable de todas. A la hora de hablar de proteger de copia de contenido en WordPress o web en general, oirás muchas veces que deberías alegrarte porque si te copian es que lo estas haciendo bien. Si, claro. Es cierto, pero maldita la gracia que hace que nos copien nuestro contenido si lo hacen sin nuestro consentimiento.

Recordad las normas para publicar contenido sindicado si accedéis a permitir que alguien publique vuestro contenido original en otro blog.

Ahora hablamos de los duplicados no autorizados generados por terceros, plagios de nuestro blog, estafas que vulneran nuestros derechos de autor. Desde este momento, recuerda, que estos imitadores pueden ser personas o robots, y deberás afrontar el problema de forma diferente.

copia de contenido en WordPress

Los “robots”, son principalmente páginas o programas llamados scrappers. Estos se dedican a plagiar, literalmente, el contenido que publicamos, copiando el código de nuestros artículos. Como nuestro panda gris es disperso, los scrapers se aprovechan para posicionarse gracias a ti, porque al fin y al cabo proporcionan buenos contenidos. El problema es que ese contenido es nuestro y el visitante que lo lee no es consciente que está accediendo a un contenido robado.

Los copiados automatizados son los más difíciles de evitar ya que hay decenas de modos de hacerlo con poco esfuerzo. Aquí vas a necesitar a tu proveedor o cierto conocimiento técnico que te ayude a buscar patrones en los logs de conexiones.

Nuestra arma principal es el famoso archivo .htaccess. Este archivo el principal responsable de que nuestra plataforma WordPress sea segura. Tomo nota de nuevo para en un nuevo artículo donde profundizar en cómo hacer nuestro WordPress seguro ante copias y hackeos.

Por ejemplo, mediante el archivo .htaccess puedes denegar el acceso a tu blog desde ciertas direcciones IP :

<Limit GET POST PUT>
order allow,deny
allow from all
deny from 100.90.100
deny from 101.80.101
</LIMIT>

Desde dominios no deseados:

<IfModule mod_rewrite.c>  
RewriteEngine On  
RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*sitiomalo.com [NC]  
RewriteRule .* - [F]  
</IfModule>

O evitar que nos rastree un robot. Cuidado que este ejemplo evita que el robot de Google te rastree, ni se te ocurra usarlo!!!

User-agent: Googlebot
Disallow: /

Pese a ser modificaciones técnicas y algo fuera del alcance de este artículo, creo que es relevante hacer mención de ellas. Todas estas modificaciones las puedes hacer modificando tu archivo .htaccess presente en la raíz de tu instalación de WP de forma sencilla mediante el plugin de Yoast. Haz copia de seguridad del archivo antes… y si no te ves capaz, no lo toques! Un error puede dejarte sin acceso a tu blog.

Otra de las formas de robo de los scrappers es mediante el acceso a nuestro RSS. Si deshabilitarlo te parece muy extremo, intenta retrasar las publicaciones unas horas y da tiempo a tu contenido para indexarse antes que los posibles plagios y no publiques por RSS todo el contenido, una introducción y enlace serán suficientes. No es mala idea cambiar la dirección RSS por defecto para que los scrappers menos sofisticados te ignoren.

Podemos hacer que quede claro que el contenido es nuestro por si algún scraper lo rastrea, y que se lleve oculto un enlace que indica donde está la fuente original mediante plugins. En el caso de WordPress, la protección de contenidos también podemos hacerla con Yoast. Ambos métodos pondrán un disclaimer oculto identificándonos como autores originales.

Proteger los derechos de autor en tu blog

Y llegamos a los plagios de manos humanas. Voy a ser franco, estamos obligados a hacer todo contra el plagio de nuestro contenido, pero no podemos protegernos del todo. Así de claro.

Lo que debemos hacer, es comprobar la existencia o no de duplicados de nuestro contenido regularmente. En especial al poco de generar nuevo contenido, debemos ser estricto y metódico. Mediante Webmaster Tools incluso podemos configurar que nos llegue un correo alertándonos.

Tu primera decisión será si permites el copy-paste o no de tu contenido. Es una medida muy extrema, mediante plugins, puedes deshabilitar el botón derecho del ratón y la posibilidad de seleccionar texto. Suena bien, pero pese a lo que te aconsejen por ahí, no te lo recomiendo. Alguien realmente obstinado en copiarte encontrará la forma de hacerlo (aunque evidentemente no diré como se hace), y a la vez perjudicas gravemente a tus lectores y a la usabilidad de tu blog. Y nuestro blog es para nuestros lectores.

El segundo paso sería recurrir a una licencia de contenido adecuada, como una de Creative Commons con atribución de contenidos. Creative Commons ofrece distintos tipos de licencia. Yo te recomiendo la de reconocimiento, que permite a terceros distribuir y construir sobre el contenido publicado, siempre que se indique la fuente original. Se recomienda cuando se busca una máxima difusión del contenido, pero puedes ser más estricto si eres celoso de lo que se haga con tus publicaciones.

Una vez elegida tu licencia te darán un código que podrás insertar, por ejemplo, en el widget del footer de tu plantilla WordPress. Esto disuade y da más fuerza a una posible futura denuncia por tu parte. Pero recuerda, esto no evita que te copien.

Ya me han copiado el contenido de mi blog ¿Ahora que?

Primero, contacta con el administrador del blog.

No asumas que es un estafador. Tal vez lo haya hecho sin maldad y se preste a retirar el contenido duplicado sin problemas. O tal vez te interese que mantenga el contenido duplicado, pero que te enlace y declare tu autoría original de la forma correcta como si fuera contenido sindicado, tu decides. Es fácil que en su blog encuentres un mail de contacto, y si no, usa los comentarios o incluso consulta a whois y saca de allí el mail de contacto del administrador del dominio. Escríbele explicando el daño que te está haciendo, facilítale el trabajo dandole el enlace al contenido copiado y espera lo mejor de la raza humana. A veces, hablando se entiende la gente.

Si la diplomacia falla, denuncia a Google.

Si las buenas maneras no funcionan denuncia a Google el plagio. Para ello puedes usar la herramienta Scrapper Report.

Además, puedes pedir que se borre de los resultados de búsqueda que sean la copia de tus contenidos. Google explica aquí como reclamar los derechos de autor sobre tu contenido. Puedes revisar el estado de cada solicitud que hagas en el panel de control de eliminación.

En resumen, no puedes protegerte al 100% de las copias no autorizadas de tu contenido, pero si tienes armas para protegerte y defenderte.

Espero haber ayudado, sin entrar en grandes tecnicismos, a poder afrontar este problema y encontrar soluciones. Estaré encantado en escuchar vuestros comentarios o de que me expliquéis vuestros casos contactando conmigo en las redes, y si os parece útil os agradeceré que compartáis el artículo con la esperanza de ayudar a más gente con dicho problema.

Tened cuidado ahí fuera.