Cómo filtrar el ghost spam en GA4

A través de mi amigo Fausto Ríos me ha llegado un caso muy interesante de ataque a Google Analytics 4 que reconozco que hacía tiempo que no veía. Me avisa de alguna de sus propiedades de #GA4 está recibiendo un pico de tráfico extraño proveniente de Polonia. Estas visitas no interactúan, solo se entran. Tiempo de permanencia 0″.

Es probable que tu también lo detectes en tus propiedades. Si no es ahora puede que lo sea en un tiempo porque no es una situación excepcional sino algo a lo que estábamos acostumbrados hasta no hace mucho tiempo ¿Qué está pasando? ¿Tengo que hacer algo?

Para comprobar si es tu caso ve a tu informe de Adquisición de tráfico y añade una comparación con el siguiente patrón: Dimensión: País + Coincide exactamente con: Poland. Y aplica la comparación.

Puedes eliminar la compración Todos los usuarios para ver la gráfica más limpia.

Si además añades la dimensión secundaria Fuente de la sesión, podrás ver el origen de este tráfico. Te devolverá unos dominios y subdominios que es probable que no te suenen de nada.

Bien, esto no es tráfico real. No son usuarios de verdad. Ni siquiera son visitas.

Lo que ha sucedido es que un bot ha escaneado tu etiqueta de Google y le está enviando señales de visitas desde un supuesto referral (otra web que parece que te ha enlazado).

En este caso parece que son webs de origen ruso que se enrutan a través de una IP de Polonia. Aquí tienes algunos tickets en Google reportando el tema. Aquí otros tantos.

El objetivo de este tipo de acciones es que curiosees en esa fuente para ver qué es. Puede ser sencillamente spam para que compres algún producto relacionado con tu actividad sexual o incluso sitios con malware enfocados a infectar tu equipo.

Obviamente no queremos que esta información contamine nuestros informes, así que habrá que ponerle remedio ¿no te parece?

He leído algunas sugerencias sobre bloquear las IPs de origen de estos sitios en tu servidor, pero esto no funcionará. Puedes bloquear al bot y que no pase por tu sitio pero si el bot ya te ha fichado, estás marcado. Es demasiado tarde. En cuanto al tráfico, al no ser tráfico real no pasa por tu hosting. .

De momento, y mientras Google no bloquee estas fuentes, solo puedes filtrarlas en GA4 de dos formas. Una eventual y otra más agresiva.

Aplica filtros a tus informes

La primera opción, más simple, es añadir un filtro a cada informe que leas. Depende de cuántas fuentes de referral spammer recibas, será más laborioso (puedes ayudarte de expresiones regulares). Pero para los casos más simples algo como esto puede ser suficiente.

Simplemente debes añadir un filtro a la Fuente de la sesión que coincida exactamente con la referencia que no te interesa. Si son varias puedes escoger el tipo de concordancia Coincide con la regex y añadir los dominios de esta forma (dominio1|dominio2|dominio3).

Una vez aplicado el filtro verás tu informe limpio de basura spammer.

Filtra tu flujo de datos

Esta segunda opción, es más agresiva y un poco ñapa pero también es más persistente en tu propiedad. Consiste en identificar el ghost spam como tráfico interno, para que no se refleje en ningún informe.

Sí, lo que hacemos es decirle a Google Analytics 4 que somos nosotros quienes navegamos desde esa IP sospechosa para que no lo tenga en cuenta.

Necesitarás las IPs de origen (puede ser rangos) y tendrás que añadirlas en la configuración de tu Flujo de datos.

Ve a Configurar ajustes de etiquetas y bajo Mostrar más encontrarás Definir tráfico interno. Ahí podrás añadir nuevas fuentes de tráfico interno con el botón de Crear.

Cada regla tiene su propia IP o rango de IPs.

Es probable que te llame la atención este otro ajuste que, por su nombre, parece hecho a medida para este caso. No es el adecuado. No lo uses para esto. El tráfico se registraría exactamente igual, pero no se le asignaría su propia fuente y perderías la trazabilidad del problema.

Su uso está orientado a fuentes de referral que forman parte del journey de tus usuarios que no quieres que se registren como fuentes externas para que no reinicien una sesión. Por ejemplo, las pasarelas de pago de tu checkout en un ecommerce.

Con esto deberías tener controlado temporalmente este problema, aunque los malos siempre están cambiando sus IPs para saltarse los controles

Esperemos que Google filtre de manera proactiva todo esto. En UA era algo más sencillo mantener manualmente el Ghost Spam a raya y, aunque ahora parece hacerlo mejor automáticamente desde su lado, no hay opciones nativas apropiadas cuando se les cuela algún spam de este tipo.

Suelo informar puntualmente de estas cosas en Twitter, así que te invito a seguirme para mantenerte al día sobre la actualidad de Google Analytics 4.

Deja un comentario

Información sobre protección de datos

  • Responsable: Pablo Moratinos
  • Fin del tratamiento: Controlar el spam, gestión de comentarios
  • Legitimación: Tu consentimiento
  • Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  • Derechos: Acceso, rectificación, portabilidad, olvido.
  • Contacto: contacto@pablomoratinos.es.
  • Información adicional: Más información en mi política de privacidad.