Cómo excluir contenido de WordPress de la búsqueda de Google

Cómo excluir contenido y archivos de WordPress de la búsqueda de Google

A veces es necesario excluir contenido o archivos específicos de WordPress para que no se indexen en los resultados de búsqueda de Google. Índice, o “indexación” antes de la aparición de Google y otros motores de búsqueda, era una palabra asociada principalmente con los libros. Por lo general, se encuentra en la parte posterior de la mayoría de los libros, y es por eso que el diccionario de Cambridge lo define en este contexto como:


Índice: una lista alfabética, como una impresa en la parte posterior de un libro que muestra en qué página se encuentra un tema, nombre, etc..

Avancemos rápidamente hasta 1995, durante el auge de Internet, tenemos servicios como el motor de búsqueda de Yahoo, y en 1997, la búsqueda de Google ha cambiado drásticamente la forma en que buscamos y accedemos a información en Internet..

Según una encuesta realizada en enero de 2018, hay 1.805.260.010 (más de 1.800 millones) de sitios web en Internet, y muchos de estos sitios web no reciben ningún visitante.

¿Qué es la indexación de Google??

Existen diferentes motores de búsqueda con un formato diferente de indexación, pero los motores de búsqueda populares incluyen, Google, Bing y para personas con mentalidad de privacidad, duckduckgo.

La indexación de Google generalmente se refiere al proceso de agregar nuevas páginas web, incluido contenido digital como documentos, videos e imágenes, y almacenarlas en su base de datos. En otras palabras, para que el contenido de su sitio aparezca en los resultados de búsqueda de Google, primero deben almacenarse en el índice de Google.

¿Qué es la indexación de Google?

Google puede indexar todas estas páginas digitales y contenido utilizando sus arañas, rastreadores o bots que rastrean repetidamente diferentes sitios web en Internet. Estos robots y rastreadores siguen las instrucciones de los propietarios del sitio web sobre qué rastrear y qué se debe ignorar durante el rastreo.

Por qué los sitios web necesitan ser indexados?

En esta era de la era digital, es casi imposible navegar a través de miles de millones de sitios web que encuentran un tema y contenido en particular. Será mucho más fácil si hay una herramienta que nos muestre qué sitios son confiables, qué contenido es útil y relevante para nosotros. Es por eso que Google existe y clasifica los sitios web en sus resultados de búsqueda..

La indexación se convierte en una parte indispensable de cómo funcionan los motores de búsqueda en general y Google en particular. Ayuda a identificar palabras y expresiones que mejor describen una página, y en general contribuye a la clasificación de la página y el sitio web. Para aparecer en la primera página de Google, su sitio web, incluidas páginas web y archivos digitales como videos, imágenes y documentos, primero debe indexarse.

La indexación es un paso previo para que los sitios web se ubiquen bien en los motores de búsqueda en general y en Google en particular. Usando palabras clave, los sitios se pueden ver y descubrir mejor después de ser indexados y clasificados por los motores de búsqueda. Esto abre puertas para más visitantes, suscriptores y clientes potenciales para su sitio web y negocio..

El mejor lugar para esconder un cadáver es la página dos de Google.

Si bien tener muchas páginas indexadas no hace que sus sitios se clasifiquen automáticamente más alto, si el contenido de esas páginas también es de alta calidad, puede obtener un impulso en términos de SEO.

Por qué y cómo bloquear el motor de búsqueda del contenido de indexación

Si bien la indexación es excelente para propietarios de sitios web y empresas, hay páginas que quizás no desee que aparezcan en los resultados de búsqueda. también podría arriesgarse a exponer archivos y contenido confidenciales a través de Internet. Sin contraseñas o autenticación, el contenido privado está en riesgo de exposición y acceso no autorizado si los bots tienen rienda suelta sobre las carpetas y archivos de su sitio web.

A principios de la década de 2000, los hackers usó la búsqueda de Google para mostrar información de la tarjeta de crédito de sitios web con consultas de búsqueda simples. Esta falla de seguridad fue utilizada por muchos hackers para robar información de tarjetas de sitios web de comercio electrónico.

Otro reciente falla de seguridad ocurrió el año pasado a box.com, Un popular sistema de almacenamiento en la nube. El agujero de seguridad fue expuesto por Markus Neis, gerente de inteligencia de amenazas de Swisscom. Informó que las hazañas simples de los motores de búsqueda, incluidos Google y Bing, podrían exponer archivos confidenciales e información de muchos clientes comerciales e individuales..

Casos como estos ocurren en línea y pueden causar una pérdida de ventas e ingresos para los dueños de negocios. Para los sitios web corporativos, de comercio electrónico y de membresía, es de vital importancia bloquear primero la indexación de búsqueda de contenido confidencial y archivos privados y luego probablemente colocarlos detrás de un sistema de autenticación decente para el usuario..

Echemos un vistazo a cómo puede controlar qué contenido y archivos que Google y otros motores de búsqueda pueden rastrear e indexar..

1. Usando Robots.txt para imágenes

Robots.txt es un archivo ubicado en la raíz de su sitio que proporciona a Google, Bing y otros robots de motores de búsqueda instrucciones sobre qué rastrear y qué no. Si bien el archivo robots.txt se usa generalmente para controlar el tráfico de rastreo y los rastreadores web (móvil frente a escritorio), también se puede usar para evitar que aparezcan imágenes en los resultados de búsqueda de Google.

Un archivo robots.txt de sitios web normales de WordPress se vería así:

Agente de usuario: *
No permitir: / wp-admin /
No permitir: / wp-includes /

El archivo robots.txt estándar comienza con una instrucción para el agente de usuario y un símbolo de asterisco. El asterisco es una instrucción para todos los bots que llegan al sitio web a seguir todas las instrucciones proporcionadas a continuación..

Mantenga los bots alejados de archivos digitales específicos utilizando Robot.txt

Robots.txt también se puede usar para detener el rastreo de motores de búsqueda de archivos digitales como PDF, JPEG o MP4. Para bloquear el rastreo de búsqueda de archivos PDF y JPEG, esto debe agregarse al archivo robots.txt:

Archivos PDF

Agente de usuario: *
No permitir: / pdfs / # Bloquear el directorio / pdfs /.
No permitir: * .pdf $ # Bloquear archivos pdf de todos los bots. Aunque no es estándar, funciona para los principales motores de búsqueda..

Imágenes

Agente de usuario: Googlebot-Image
No permitir: /images/cats.jpg #Block cats.jpg imagen para Googlebot específicamente.

En caso de que desee bloquear todas las imágenes .GIF para que no se indexen y se muestren en la búsqueda de imágenes de Google mientras permite otros formatos de imagen, como JPEG y PNG, debe usar las siguientes reglas:

Agente de usuario: Googlebot-Image
No permitir: /*.gif$

Importante: Los fragmentos anteriores simplemente excluirán su contenido de ser indexado por sitios de terceros como Google. Todavía son accesibles si alguien sabe dónde buscar. Para hacer que los archivos sean privados para que nadie pueda acceder a ellos, necesitará usar otro método, como estos complementos de restricción de contenido.

Googlebot-Image se puede usar para bloquear imágenes y que una extensión de imagen en particular no aparezca en la búsqueda de imágenes de Google. En caso de que desee excluirlos de todas las búsquedas de Google, p. búsqueda web e imágenes, es recomendable utilizar un agente de usuario Googlebot en su lugar.

Otros agentes de usuario de Google para diferentes elementos en un sitio web incluyen Googlebot-Video para videos desde la aplicación en la sección de videos de Google en la web. Del mismo modo, el uso del agente de usuario de Googlebot bloqueará la visualización de todos los videos en google videos, búsqueda web o búsqueda web móvil.

Robots txt Sin índice

Tenga en cuenta que usar Robots.txt no es un método apropiado para bloquear archivos y contenido confidenciales o confidenciales debido a las siguientes limitaciones:

  • Robots.txt solo puede instruir a rastreadores con buen comportamiento; otros motores de búsqueda y bots no conformes simplemente podrían ignorar sus instrucciones.
  • Robots.txt no impide que su servidor envíe esas páginas y archivos a usuarios no autorizados previa solicitud.
  • Los motores de búsqueda aún pueden encontrar e indexar la página y el contenido que bloquea en caso de que estén vinculados desde otros sitios web y fuentes.
  • Robots.txt es accesible para cualquier persona que pueda leer todas las instrucciones proporcionadas y acceder a ese contenido y archivos directamente

Para bloquear la indexación de búsqueda y proteger su información privada de manera más efectiva, utilice los siguientes métodos.

2. Uso de metaetiquetas sin índice para páginas

El uso de metaetiquetas sin índice es un método adecuado y más efectivo para bloquear la indexación de búsqueda de contenido confidencial en su sitio web. A diferencia del robots.txt, la metaetiqueta sin índice se coloca en el sección de una página web con una etiqueta HTML muy simple:



...

Cualquier página con esta instrucción en el encabezado no aparecerá en el resultado de búsqueda de Google. Otras directivas como nofollow y notranslate también se pueden usar para indicar a los rastreadores web que no rastreen los enlaces y ofrezcan la traducción de esa página respectivamente.

Puede instruir a varios rastreadores utilizando múltiples metaetiquetas en una página de la siguiente manera:



...


Hay dos formas de agregar este código a su sitio web. Su primera opción es crear un tema secundario de WordPress, luego en sus functions.php puede usar el gancho de acción wp_head de WordPress para insertar un noindex o cualquier otra metaetiqueta. A continuación se muestra un ejemplo de cómo no indexaría su página de inicio de sesión.

add_action ('wp_head', function () {
if (is_page ('login')) {
eco '';
}
});

Su segunda opción es utilizar su complemento SEO para controlar la visibilidad de una página. Por ejemplo, con Yoast SEO puede ir a la sección de configuración avanzada en una página y simplemente elegir “No” para las opciones para permitir que el motor de búsqueda muestre la página:

Configuración de resultados de búsqueda de Yoast SEO

3. Uso del encabezado HTTP X-Robots-Tag para otros archivos

X-Robots-Tag le brinda más flexibilidad para bloquear la indexación de búsqueda de su contenido y archivos. En particular, cuando se compara con la metaetiqueta sin índice, se puede usar como la respuesta del encabezado HTTP para cualquier URL dada. Por ejemplo, puede usar la etiqueta X-Robots para archivos de imagen, video y documentos donde no es posible usar las metaetiquetas de los robots.

Puedes leer Guía completa de metaetiquetas de robots de Google, pero así es como puede indicar a los rastreadores que no sigan e indexen una imagen JPEG usando la etiqueta X-Robots en su respuesta HTTP:

HTTP / 1.1 200 OK
Tipo de contenido: imagen / jpeg
Fecha: sábado 27 de noviembre de 2018 01:02:09 GMT
(...)
X-Robots-Tag: noindex, nofollow
(...)

Cualquier directiva que pueda usarse con una metaetiqueta de robots también se aplica a una X-Robots-Tag. Del mismo modo, también puede instruir a varios robots de motores de búsqueda:

HTTP / 1.1 200 OK
Fecha: martes, 21 de septiembre de 2018 21:09:19 GMT
(...)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otrobot: noindex, nofollow
(...)

Es importante tener en cuenta que los robots de los motores de búsqueda descubren las metaetiquetas Robots y los encabezados HTTP X-Robots-Tag durante el proceso de rastreo. Entonces, si desea que estos bots sigan sus instrucciones de no seguir o indexar ningún contenido y documentos confidenciales, no debe detener el rastreo de estas URL de páginas y archivos.

Si no pueden rastrearse utilizando el archivo robots.txt, sus instrucciones sobre indexación no se leerán y, por lo tanto, se ignorarán. Como resultado, en caso de que otros sitios web se vinculen con su contenido y documentos, Google y otros motores de búsqueda aún los indexarán..

4. Uso de reglas .htaccess para servidores Apache

También puede agregar el encabezado HTTP X-Robots-Tag a su archivo .htaccess para bloquear a los rastreadores de páginas de indexación y contenido digital de su sitio web alojado en un servidor Apache. A diferencia de las metaetiquetas sin índice, las reglas .htaccess se pueden aplicar a un sitio web completo o una carpeta en particular. Su soporte de expresiones regulares ofrece una flexibilidad aún mayor para que pueda orientar múltiples tipos de archivos a la vez.

Para evitar que Googlebot, Bing y Baidu rastreen un sitio web o un directorio especial, use las siguientes reglas:

RewriteEngine On
RewriteCond% {HTTP_USER_AGENT} (googlebot | bingbot | Baiduspider) [NC]
RewriteRule. * - [R = 403, L]

Para bloquear la indexación de búsqueda de todos los archivos .txt, .jpg, .jpeg, .pdf en todo su sitio web, agregue el siguiente fragmento:


Conjunto de encabezado X-Robots-Tag "noindex, nofollow"

5. Uso de la autenticación de página con nombre de usuario y contraseña

Los métodos anteriores evitarán que su contenido privado y documentos aparezcan en los resultados de búsqueda de Google. Sin embargo, cualquier usuario con el enlace puede acceder a su contenido y acceder a sus archivos directamente. Por seguridad, se recomienda encarecidamente configurar una autenticación adecuada con nombre de usuario y contraseña, así como permiso de acceso a roles.

Uso de autenticación de página

Por ejemplo, las páginas que incluyen perfiles personales del personal y documentos confidenciales a los que no deben acceder los usuarios anónimos deben pasar por una puerta de autenticación. Entonces, incluso cuando los usuarios de alguna manera logran encontrar las páginas, se les pedirá credenciales antes de que puedan ver el contenido.

WordPress Password Protect

Para hacer esto con WordPress, simplemente configure la visibilidad de una publicación en contraseña protegida. De esta manera, puede seleccionar una contraseña requerida para ver el contenido de esa página. Esto es bastante fácil de hacer por publicación / página. Para una privacidad más completa del sitio, intente agregar uno de estos complementos de membresía de WordPress a su sitio web.

Tenga en cuenta que las páginas ocultas o protegidas por contraseña de los motores de búsqueda y los visitantes no necesariamente protegen los documentos, videos e imágenes adjuntas a su contenido. Para una protección real de sus cargas de archivos de WordPress, se recomienda encarecidamente un servicio premium como Prevent Direct Access Gold.

Conclusión

En la carrera por estar en la página uno de Google, los dueños de negocios pueden no tener en cuenta lo que los motores de búsqueda pueden ver. Ya sea que esté bloqueando bots de un archivo específico, ocultando una página de inicio de sesión personalizada o protegiendo con contraseña los directorios de usuarios privados … hay muchas páginas para considerar la no indexación cuando se trata de motores de búsqueda.

¿Tiene alguna pregunta sobre cómo excluir contenido de los resultados de búsqueda? ¿O evitar que ciertos archivos sean indexados por bing? Deja un comentario abajo!

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map