Ver rastreos bots buscadores
Con este comando filtraremos los logs del servidor para ver los escanenos/rastreos que los buscadores le hacen a nuestro sitio/servidor. Debian/Ubuntu Apache:
cat /var/log/apache2/access.log |grep "robots.txt\|Googlebot"| awk '{print $1,$4,substr($7,1,22),$13,$15}'
Debian/Ubuntu Nginx:
cat /var/log/nginx/access.log |grep "robots.txt\|Googlebot"|awk '{print $1,$4,substr($7,1,22),$13,$15}'
CentOs:
cat /var/log/httpd/access_log* |grep "robots.txt\|Googlebot"|awk '{print $1,$4,substr($7,1,22),$13,$15}'
Ejemplo de registro de salida:
54.36.148.95 [12/Apr/2019:19:54:46 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.149.51 [16/Apr/2019:14:37:31 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.150.164 [17/Apr/2019:10:19:51 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.148.140 [18/Apr/2019:02:59:52 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.149.21 [21/Apr/2019:08:57:18 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.148.19 [28/Apr/2019:00:08:52 /robots.txt (compatible; +http://ahrefs.com/robot/)"
66.249.66.139 [29/Apr/2019:22:16:42 / (compatible; +http://www.google.com/bot.html)"
66.249.66.141 [04/May/2019:18:06:16 / (compatible; +http://www.google.com/bot.html)"
54.36.148.56 [29/Apr/2019:21:53:37 /robots.txt (compatible; +http://ahrefs.com/robot/)"
54.36.148.17 [01/May/2019:13:00:46 /robots.txt (compatible; +http://ahrefs.com/robot/)"
216.144.240.130 [01/May/2019:14:56:10 /robots.txt
Explicacion:
cat /var/log/apache2/access.log
: muestra el archivo con el registro de accessos a paginas web.|grep "robots.txt\|Googlebot"
: lo filtra mostrando solo las lineas que tienen el texto robots y Google bot| awk '{print $1,$4,substr($7,1,22),$13,$15}''
formateo la salida para mostrar solo los campos necesarios
Analisis de la salida.
humm. aunque no lo parezca hay algo de informacion util de cara al hardening.
Por ejemplo evitar/comprobar que los buscadores accedan al contenido privado de nuestra veb.
Conclusion de seguridad.
- Cuidado con que partes de nuestra web rasrtrean los buscadores ya que esta informacion se puede buscar para encontrar sitios vulnerables.
- ej si google ve nuestra version de wordpress en cuanto salga un exploit para dicha version
- seria muy facil encontrar los sitios vulnerables con un a simple busqueda
Defensas
- Podria añadir codigo a nuestra pagina para que rechazara a los buscadores pero perderiamos posicionado SEO.
Solo interesaria para sitios privados. - controlar robots.txt