Parsero: Análisis de robots.txt en Kali
Parsero: Análisis de robots.txt en Kali
Si estás auditando un sitio web desde Kali Linux, Parsero es una herramienta de reconocimiento (OSINT) muy útil y ligera. Su función principal es analizar el archivo robots.txt de un servidor para encontrar directorios que el administrador ha pedido a los buscadores (como Google o Bing) que no indexen.
A menudo, esos directorios "ocultos" contienen información sensible o rutas vulnerables que el administrador no quiere que sean públicas.
¿Cómo instalar Parsero?
Parsero no siempre viene preinstalado en todas las versiones de Kali, pero puedes obtenerlo fácilmente desde los repositorios oficiales:
sudo apt update
sudo apt install parsero
Comandos básicos y uso
La sintaxis de Parsero es muy directa. Aquí tienes los usos más comunes:
Escaneo estándar:
Analiza el archivo robots.txt y verifica si las entradas marcadas como "Disallow" son accesibles y qué código de estado HTTP devuelven.
Bashparsero -u https://www.ejemplo.comBúsqueda en Bing (Opción -b):
Esta es la función más potente de Parsero. Busca en Bing las URLs que están listadas en el robots.txt para ver si, a pesar de la restricción, el buscador ya las ha indexado.
Bashparsero -u https://www.ejemplo.com -bGuardar resultados:
Si quieres exportar los hallazgos a un archivo de texto para un informe posterior:
Bashparsero -u https://www.ejemplo.com -o archivo_salida.txt
¿Por qué es útil en Pentesting?
El archivo robots.txt es una mina de oro por una razón psicológica: le dice al atacante exactamente dónde están las cosas importantes. | Característica | Descripción |
| :--- | :--- |
| Identificación de rutas | Encuentra paneles de administración (/admin, /config). |
| Fugas de información | Localiza directorios de respaldo o temporales que el dueño olvidó borrar. |
| Eficiencia | En lugar de hacer fuerza bruta (brute forcing) de directorios, vas directamente a lo que el administrador intentó "esconder". |
Nota de seguridad: Parsero es una herramienta de recopilación de información pasiva/semipasiva, pero recuerda siempre realizar estas pruebas en entornos controlados o con la debida autorización.
Interpretar los resultados de Parsero es clave para no perder tiempo con "falsos positivos". Cuando ejecutas la herramienta, verás una lista de URLs seguida de un código de estado HTTP.
Aquí te explico cómo leer esos resultados como un profesional del Pentesting:
1. Los Códigos de Estado (HTTP Status Codes)
Es lo más importante que verás en la columna de resultados.
HTTP 200 (OK): ¡Bingo! El directorio está configurado como "Disallow" en el robots.txt, pero es accesible públicamente. Esto es una vulnerabilidad potencial o una fuga de información.
HTTP 403 (Forbidden): El servidor prohíbe el acceso. El administrador hizo bien su trabajo; aunque sabes que la carpeta existe, no puedes entrar directamente.
HTTP 404 (Not Found): La entrada en el robots.txt es antigua o apunta a algo que ya no existe. Puedes ignorarlo.
HTTP 301 / 302 (Redirect): Te redirige a otra parte (comúnmente al login o a la página principal).
2. Ejemplo de una salida típica
Imagina que ejecutas parsero -u https://objetivo.com y obtienes esto:
| URL analizada | Estado | Significado |
https://objetivo.com/admin/ | 200 OK | Crítico: Panel de control expuesto. |
https://objetivo.com/backup/ | 200 OK | Muy Alto: Posible descarga de base de datos o código fuente. |
https://objetivo.com/config.php | 403 Forbidden | Interesante, pero protegido por el servidor. |
https://objetivo.com/uploads/ | 200 OK | Podrías ver archivos subidos por otros usuarios. |
3. ¿Qué hacer con los resultados "200 OK"?
Si Parsero te confirma que una ruta es accesible, el siguiente paso no es solo mirar, sino analizar qué hay ahí:
Exploración Manual: Visita la URL en tu navegador (usa una VPN o Tor si es necesario por privacidad).
Fuzzing de archivos: Si encontraste
/backup/con un 200 OK, pero está vacío, usa herramientas como Gobuster o FFUF para buscar archivos específicos dentro (ej.db.sql,config.zip).Análisis de Bing (
-b): Si Parsero dice que Bing tiene indexada una ruta "Disallow", significa que la información ya es pública en internet aunque el dueño no lo sepa.
4. Errores comunes al interpretar
El "Falso 200": Algunos servidores están configurados para redirigirte siempre a la página de inicio en lugar de dar un error 404. Si ves que todas las rutas devuelven "200 OK" y muestran el mismo contenido, es un falso positivo.
Trampas (Honey Pots): A veces, los administradores ponen rutas como
/passwords.txten el robots.txt para detectar escaneos. Si intentas acceder, tu IP podría quedar bloqueada automáticamente.