miércoles, agosto 10, 2016

Big Data Security Tales: Las interfaces de acceso al HDFS (Hadoop Distributed File System) #BigData #Hadoop

Uno de los elementos fundamentales de las arquitecturas Big Data basadas en Hadoop es el sistema de ficheros distribuido que montan. Tiene proyecto propio dentro de Apache Hadoop y se llama HDFS (Hadoop Distributed File System) y no es más que una sistema de ficheros virtual montando sobre un cluster de equipos, es decir, un DFS al uso con características especiales para los entornos de Big Data de hoy en día.

Figura 1: Big Data Security Tales: Las interfaces de acceso al HDFS

Si buscamos en Internet cuáles son los puertos que utiliza el sistema de ficheros para funcionar, rápidamente llegaremos a una tabla como la que aparece a continuación, donde se ve que existen diferentes puertos usando diferentes protocolos para cada uno de los servicios.

Figura 2: Servicios y Puertos en HDFS

Como se puede ver, el más importante de todos es el de acceso web al HDFS del cluster que va por el puerto 50070 en HTTP y 50470 por HTTPs. Basta con hacer un poco de hacking con buscadores con Shodan para localizar en Amazon Web Services una buena cantidad de resultados que permiten ver el HDFS se muchas organizaciones.

Figura 3: Paneles de administración de HDFS en Amazon

La gran mayoría de ellos están abiertos a todo Internet, y se puede consultar en todo momento información de qué máquinas forman parte del HDFS y realizar algunas operaciones con ellas, que espero estén protegidas con una ACL más ajustada que el panel de acceso web.

Figura 4: Información de nodos en el HDFS de Hadoop

Dentro de las herramientas, por supuesto, se encuentra la posibilidad de navegar por el HDFS creado, pudiendo ver los directorios y ficheros del DFS disponibles, siempre y cuando los permisos dejen hacerlo.

Figura 5: Un Hadoop del 2015 con el HDFS explorable desde Internet por todo el mundo

Podríamos navegar a la carpeta /user y localizar los nombres de los usuarios que están dados de alta en este HDFS, como parte de un proceso de búsqueda de información de un objetivo en un proceso de Ethical Hacking.

Figura 6: Carpetas de usuario en HDFS

O también - y siempre con el objetivo de sacar el máximo posible de información - acceder a las jugosas carpetas con los ficheros de los logs para ver en detalle qué información puede ser extraída de esos archivos tan útiles. Como no era de esperar de otra forma, se puede sacar mucha información útil de cada fichero, desde rutas y nombres de archivos, hasta información de usuarios y actividades realizadas en el sistema.

Figura 7: Contenido de un fichero de log en HDFS

Este solo es solo el interfaz de acceso web al panel de administración del HDFS, pero existen otros puertos que también dan información útil en una auditoría, como los puertos de los DataNodes que muestran la información de la DHT (Distributed Hash Table) donde se pueden ver los equipos integrantes de un determinado cluster.

Figura 8: DHT de los Datanodes indexadas en Shodan

Si tienes un HDFS en una nube, lo suyo es que configures las opciones de seguridad de las interfaces de acceso a él antes de ponerlo en Internet, y asegúrate bien de que nadie tiene acceso a los repositorios documentales finales.
Saludos Malignos!

Entrada destacada

Infraestructuras Críticas y Sistemas Industriales: Auditorías de Seguridad y Fortificación de @0xWord

Desde hoy está disponible a la venta un nuevo libro de 0xWord centrado en la seguridad de los Sistemas Industriales y las Infraestructuras...

Entradas populares