Ver rastreos bots buscadores

Con este comando filtraremos los logs del servidor para ver los escanenos/rastreos que los buscadores le hacen a nuestro sitio/servidor. Debian/Ubuntu Apache:

cat /var/log/apache2/access.log |grep "robots.txt\|Googlebot"| awk '{print $1,$4,substr($7,1,22),$13,$15}'


Debian/Ubuntu Nginx:

cat /var/log/nginx/access.log |grep "robots.txt\|Googlebot"|awk '{print $1,$4,substr($7,1,22),$13,$15}'


CentOs:

cat /var/log/httpd/access_log* |grep "robots.txt\|Googlebot"|awk '{print $1,$4,substr($7,1,22),$13,$15}'


Ejemplo de registro de salida:

54.36.148.95 [12/Apr/2019:19:54:46 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.149.51 [16/Apr/2019:14:37:31 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.150.164 [17/Apr/2019:10:19:51 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.148.140 [18/Apr/2019:02:59:52 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.149.21 [21/Apr/2019:08:57:18 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.148.19 [28/Apr/2019:00:08:52 /robots.txt (compatible; +http://ahrefs.com/robot/)"
66.249.66.139 [29/Apr/2019:22:16:42 / (compatible; +http://www.google.com/bot.html)"
66.249.66.141 [04/May/2019:18:06:16 / (compatible; +http://www.google.com/bot.html)"
54.36.148.56 [29/Apr/2019:21:53:37 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.148.17 [01/May/2019:13:00:46 /robots.txt (compatible; +http://ahrefs.com/robot/)"
216.144.240.130 [01/May/2019:14:56:10 /robots.txt 

Explicacion:

  • cat /var/log/apache2/access.log : muestra el archivo con el registro de accessos a paginas web.

  • |grep "robots.txt\|Googlebot" : lo filtra mostrando solo las lineas que tienen el texto robots y Google bot

  • | awk '{print $1,$4,substr($7,1,22),$13,$15}'' formateo la salida para mostrar solo los campos necesarios

Analisis de la salida.

humm. aunque no lo parezca hay algo de informacion util de cara al hardening.
Por ejemplo evitar/comprobar que los buscadores accedan al contenido privado de nuestra veb.

Conclusion de seguridad.

  • Cuidado con que partes de nuestra web rasrtrean los buscadores ya que esta informacion se puede buscar para encontrar sitios vulnerables.
  • ej si google ve nuestra version de wordpress en cuanto salga un exploit para dicha version
  • seria muy facil encontrar los sitios vulnerables con un a simple busqueda

Defensas

  • Podria añadir codigo a nuestra pagina para que rechazara a los buscadores pero perderiamos posicionado SEO.
    Solo interesaria para sitios privados.
  • controlar robots.txt