Mis apuntes sobre Crawling e Indexing (Clinic SEO eShow 2017)

La semana pasada asistí al Clinic SEO centrado en Crawling e Indexing. Fueron unas 7 horas de ponencias de nivel medio alto de las que he podido sacar ideas que ya estoy empezando a aplicar en mis proyectos.

Tras pasar mis apuntes a limpio los comparto por si le pueden ser de ayuda a alguien:

Casos de estudio de Crawling

Carlos Redondo

La arquitectura (cuanto más profunda es una web más difícil es que sea rastreada al 100%) y la estructuración del código son fundamentales para asegurarse un buen crawling para una web.

Si abusas del noindex quizás tengas que plantearte un rediseño de tu web. Una web de clasificados con 96.000 páginas noindex y 3.000 index (es un caso real) está enviando una mala señal a Google diciéndole que tienen mucha información no relevante. Mucho rastrear para poco indexar. Además las páginas de baja calidad bajan el Crawl Rate de una web.

El propio Amazon tiene un 70% de su página noindex (aquí se incluyen las páginas con canonical). De esta forma no optimiza su crawl budget al obligar a recorrer muchas veces la misma página (ficha del producto, zona de opiniones…).

Buena praxis: revisar periódicamente robots.txt.

¿Ponerle nofollow a los botones para introductor comentarios, etc? Esta solución sobre el papel pierde link juice pero no crawlbudget. En una ponencia posterior Lino Uruñuela explicaría que para él en estos cosas es mejor ofuscar enlaces, algo que comparto.

El problema anterior es muy habitual en foros. Por ejemplo Enfemenino.com lo soluciona creando esos enlaces en JavaScript.

En jsseo.expert se pueden ver experimentos sobre enlaces con JavaScript, etc.

Pensar siempre en el usuario. Forzar url’s con redirecciones provoca mala experiencia de usuario (NBA.com estuve muchos meses redirigiendo a as.com/nba debido a un acuerdo comercial). Incluso puede desembocar, aunque hoy en día es poco probable, en una penalización por cloaking.

Una buena arquitectura y un buen contenido… puede ser liquidada por un hosting barato que se acabe cargando nuestro crawleo. Además todas las optimizaciones que se puedan hacer (limpiar logs, cacheos, bases de datos…) siempre van a ser buenas para crawleo… ¡y usuario!

¿Cómo subir crawleo? Subir popularidad, frecuencia de actualización del contenido, número de urls de calidad…

Cuidado con los bloqueos de bots para no sobrecargar el servidor. ¡Hay quien ha llegado a bloquear el bot de Google!

Estrategias y técnicas de indexación en grandes sites

Lino Uruñuela

Pensar muy bien como repartimos los links internos. ¡Son valiosos recursos!

Cuidado con nofollow porque en teoría quita fuerza al link sculpting. En teoría porque no se puede creer al pie de la letra todo lo que dice Google. Piensa en él, ¡no en ti!

Ley del Primer Enlace: Cuando hay 2 enlaces desde una página a otra solo cuenta el anchor del 1º. ¡Ojo con las migas de pan porque pueden estar matando nuestro link sculpting sin darnos cuenta! Esta ley también puede hacer que no tenga sentido optimizar los enlaces del footer.

Ley 2: Evita que Google pierda el tiempo. No enlaces (mediante href) a páginas noindex, a páginas de productos que ya no estén a la venta, paginados, filtros… La alternativo a esto es ofuscar enlaces.

Ofuscar sirve para no desperdiciar link juice, no gastar crawl, saltarse la ley del primer enlace…

En Google hay que distinguir entre directivas (se cumplen) y señales (no siempre se cumplen).

  • Directivas: Robots, Meta.
  • Señales: Nofollow (su sentido es indicar que es un enlace comercial , por lo que probablemente no es buena idea indicar a G que se tienen muchos enlaces comerciales).

Para Privacidad, etc.. .mejor ofuscar que nofollow.

Canonical no afecta al rastreo. Es decir, Google rastrea las páginas con canonical.

Especialmente importante en grandes sitios que G no pierda el tiempo (desperdiciando el crawl que tienes asignado). Por ejemplo en urls con parámetros mejor robots.txt que noindex.
Bloquear basura permite a Google indexar contenido de mayor valor.

No por tener +url’s tendrás más tráfico orgánico.

Si tienes thin content que puede servir (por ejemplo ofrece linking interno que permite llegar al robot más profundo) entonces noindex.

Los metas no dejan de ser parches que hablan de una mala estructura web.

A veces los metas hay que utilizarlos cuando no queda otra y no existe un patrón determinado (ejemplo: contenido generado por usuario con menos de 200 palabras).

Resumen:
1.- Vigilar Primer enlace.
2.- No crear enlaces (a parámetros, filtros, tags, búsquedas internas, contenido pobre generado por usuarios) que luego debamos corregir con algún meta.
3.- Ofuscar enlaces

Indexa como no lo habías hecho nunca antes.

Iñaki Huerta

No importa donde esté el meta. Si en un artículo pones dentro del texto la etiqueta meta noindex lo aplica. Esto es hoy, G puede cambiar en cualquier momento.

Los Sitemap ayudan un poco a indexar nuevas zonas. Cuando las urls ya están indexadas los sitemap sirven de poco.

Casi lo más interesante de los Sitemap es, gracias a Search Console, saber cómo va la indexación de una web.

Cuanto más arriba (a 1 clic de la home, a 2 clics…) mejor indexación. Cuantos más enlaces internos mejor indexación.

Si se hacen pruebas de Sitemap con páginas malas (por ejemplo ponemos una sección en noindex y queremos conocer el % que ya ha sido desindexado) cuando tenemos el dato que queremos quitarlos. Subir, anotar el dato (suele tardar 24h) y quitarlo. Tener en cuenta que el objetivo del Sitemap no es este.

Se pueden marcar directrices de indexación a través del módulo rewrite de .htaccess.

Indexación SEO con JavaScript, Mitos y realidades.

Eduardo Garolera

Cuidado con los cambios de tecnologías. Hulu se la pegó apostando por JavaScript.

Si vas a usar una solución que no tienes claro cómo va a responder Google, realiza pruebas antes de implementarla en todo el sitio web.

Foro debate Crawling & indexing.

Sitemap ayuda poco a indexar. Incluso puede ser más negativo que positivo. Si no lo actualizas correctamente y tienes páginas noindex puedes estar desperdiciando crawleo.

¿Es tu robots.txt correcto? ¿Tiene tu sitemap sentido? Preguntas que hay que hacerse recurrentemente.

Antes de restringir algo (robots.txt, etc) asegurarse de que no está trayendo tráfico orgánico valioso.

Para orientar “presupuesto” de crawleo es más efectivo linking interno que el sitemap.

Cuidado con darle rol de Administrador en Search Console de nuestras web a terceros. ¡Pueden incluso desindexar nuestra página!

Migraciones SEO.

Miguel Pascual

Lo más habitual en la mayoría de migraciones, si no se tiene extremo cuidado, es perder tráfico.

La migración a https no es tan sencilla como muchos piensan. Lo más práctico es poner canonical en todas las páginas al https, avisar en Google Search Console del cambio y cambiar los links internos.

Recomendaciones: 1.- Cambiar a https (pero sigue funcionando http). 2.- Canonical en todas las páginas a https. 3.- Cuando está más que comprobado que todo funciona correctamente redirecciones de http a https.

Tener en cuenta que https necesita más recursos del servidor (encripta y desencripta).

En migraciones es una gran ayuda Screaming frog para controlar que el crawling se hace de manera correcta.

Utilizar el código 503 (mantenimiento). Si al lanzar la nueva versión hay errores se vuelva a la versión anterior hasta corregir la nuevo y ante Google no ha pasado nada.

Diagnóstico y tratamiento de Canibalizaciones SEO.

Iñaki Tovar

2 resultados en las SERP en vez de uno puede no ser muy bueno: peor CTR, autoridad diluida, desperdicio de crawl, afecta a la conversión (landing vs blog)… Mejor #2 que #7 y #8.

¡Precisión! 1 search intent -> 1 landing.

¿Cómo encontrar una canibalización?

  • Search Console: repasar qué páginas tienen muchas impresiones y pocos clics.
  • Search Console: Fijar una kw y observar qué landings están recibiendo tráfico.
  • Google: site:www.web.com + SEO Quake (plugging gratuito)

¿2 landings luchando por la misma kw? Para elegir con cual quedarte analiza conversión, tráfico, % rebote…

Cuidado con los anchors de los enlaces internos. Podemos ayudar a canibalizarnos nuestros contenidos ante los ojos de Google. Es recomendable buscar este tipo de señales (links internos, palabras claves) y quitarlas.

¿Cómo solucionar la canibalización? Fusión (content update), 301 de la vieja a la nueva (lo mejor es hacerlo a través de .htaccess), avisar a Google desde SC y darle un pequeño empujón (publicar en redes sociales, pasarla por la home…)

No dejar los 301 para siempre. No es bueno tener muchas redirecciones.

Un error 410 avisa a Google que se ha quitado un contenido. Para urgencias es una buena opción.

Hay que invertir en copy writing. Cada día G entiende mejor el tono, la intención…. La inteligencia artificial también va ganando peso en el buscador.

Resuelve los problemas de contenido y arquitectura.

César Aparicio

Arquitectura y contenido van de la mano.

Con arquitectura se puede mejorar posicionamiento, en ocasiones incluso mejor que con contenidos (repartiendo mejor el link juice).

Una url debe responder a varias kws. /tag/edredon debería posicionar para edredon, edredones… pero también para funda nórdica.

Si una landing diseñada para una kw en Google tiene en las SERPs por encima resultados complementarios (atacan una kw similar pero no esa) quizás sea porque esa url no tiene suficiente calidad.

La ubicación del contenido es relevante debido a la experiencia de usuario que genera. La muestra es que Google llegó a penalizar por poner publicidad “Above the fold”.

Google entiende bastante bien las entidades similares. Por eso una landing para edredones baratos puede canibalizarse con otra para edredones económicos.

Urls malas (thin content…), además de no aportar tráfico, pueden afectar al resto de una web. A más thin content mayor probabilidad de que G vea patrones negativos.

Reflexionar sobre cada página de baja calidad: ¿recibe tráfico? ¿De verdad es necesaria? A un proyecto con años le suelen sobrar muchas urls. ¡Ojo! Borrar no es lo mismo que noindex (se queda link juice, gasta crawl…).

En una landing más texto no tiene porque ser mejor (keyword stuffing…).

G puede penalizar (o rankear peor de lo que debiera) por cluster (sección), todo menos home (ya que la home suele ser el sitio con más autoridad de una web) o total.

¿Qué hacer con contenido de baja calidad (duplicado, thin content)? Unificar, enriquecer o fusionar.

 

¿Mi balance final? Mereció la pena invertir 150€ en la entrada.

Un pensamiento en “Mis apuntes sobre Crawling e Indexing (Clinic SEO eShow 2017)

  1. David

    Muy interesante, gracias por compartir.

    Mi experiencia con las migraciones a https es que las direcciones antiguas se mantienen archivadas durante mucho tiempo (pese a los 301), así que al cabo de unos meses lo que hago es responder con un http 410 + cabeceras meta (noindex, noarchive). En las webs de configuración (GWT, Bing) se pueden eliminar URLs que den problemas. Aparte de eso, añado un sitemap para el dominio no ssl para que deje de indexarlo (rewrite de robots.txt a robots-disallow.txt) manteniendo el 301 para el tráfico normal.

    Por cierto, hace un tiempo me percaté de que no daba importancia a urls con parámetros y a Google no le gustaba nada. La solución fue usar “canonical” sin parámetros y configurar acorde en GWT (Rastreo -> Parámetros de URL)

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *