domingo, diciembre 31, 2023

Y se acabó.

Paso a paso he ido haciendo el camino de otro año en este blog.  En el lado del mal. Y este año, que he estado muy centrado en el trabajo y en el avance de la tecnología, he dedicado muchas horas a hacer cosas, con lo que he conseguido recuperar un ritmo de producción que había perdido hace muchos años atrás. De hecho, desde el año 2015 donde comencé a reducir los posts que iba publicando en el blog. El ritmo de la vida, las decisiones que tenía que tomar entonces, las cosas que me sucedieron en aquellos tiempos, hicieron que  empezara a pasar menos tiempo con la pantalla blanca de este blog, y más conmigo mismo haciendo otras cosas.

Figura 1: Y se acabó.

Y fui reduciendo mi presencia en el blog hasta el año 2019, donde tuve la menor producción de todos los años de vida de este blog, y sólo le di a publicar 319 días, dejando pasar la ventana un mes y medio de veces. Pero... a finales de ese mismo año, decidí volver a publicar más. A meterme en nuevos temas. Había cambiado mi rol, y después de 20 años empujando la misma empresa (Informática64 se creó en Septiembre de 1999 y dejé de ser el Chairman de ElevenPaths en Noviembre de 2019), tenía nuevos retos por delante.

Así que comencé a subir el número de post publicados, no solo porque quisiera publicar más, sino porque comencé a hacer muchas más cosas nuevas, diferentes, y para mí hacer más cosas significa tener más cosas que contaros. Así que, desde 2020 a 2023 he ido subiendo año a año el número de artículos publicados. Primero 340, luego 360, el año pasado 361, y este año 368. Es decir, he publicado todos los días y tres de ellos, han salido dos artículos por algún motivo. Así que he cumplido.

Hace unos días me ponía las notas a mí mismo, y en esfuerzo me daba Matricula de Honor, porque he peleado todos los balones hasta los casi imposibles. He corrido todas las jugadas, y no me he perdido ningún partido del calendario. Y la consecuencia son estos 368 artículos publicados. 

Como desde hace años, no todos son míos, ni mucho menos, pero sí que todos los reviso, los corrijo, los maqueto, y los uso para aprender. Muchos otros son de proyectos en los que estoy metido, o de formaciones con las que colaboro, o conferencias que he dado, o programas de televisión en los que he participado, o entrevistas que he hecho, o libros que hemos publicado, o podcasts con los que he colaborado, o herramientas que hemos lanzado, o artículos académicos que me he leído, o que hemos publicado nosotros, o noticias de actualidad que me han llamado la atención, o patentes que se han registrado, opiniones personales sobre temas, o simplemente diatribas conmigo mismo que hago en voz alta por si alguien me escucha.

Es un blog. Es mi blog. No es nada más que eso. Un simple lugar en el que se refleja lo que hago día a día, lo que peleo día a día, lo que descubro día a día, lo que sufro y lo que me divierto día a día. Un lugar en el que sé que muchos de vosotros estáis al otro lado. Y vengo a veros. Podría recitar el nombre de más de un centenar de personas que sé que estáis leyendo mi blog todos los días. Y por eso necesito contaros todo lo anterior igual que se lo cuento a mis amigos en una cena, o a mis compañeros en una reunión. Es mi sitio para estar conectado conmigo mismo, con mi actividad diaria, y con vosotros.

Y este año he estado muy conectado. Tanto, que me cuesta desconectar. Que me cuesta bajar el nivel de desconexión para recuperarme mentalmente y coger energía. Lo sé. Pero es que yo soy así. Ese que veis día a día en el blog soy una parte muy grande de mí. Mi carta de presentación. Mi carta de recomendación. Mi currículo. Y este año he cumplido conmigo mismo. Todos los días. He venido a hacer mi prueba de vida. He fichado en mi trabajo conmigo mismo con cada publicación. He hecho los deberes que me auto-impongo de aprender cosas, y los he entregado a tiempo. Esto es lo que he hecho este año.

En menos de un mes, este blog cumplirá 18 años de vida desde el primer día que comencé a publicar. En unos días, El lado del mal comenzará el año 19 de publicación de artículos. En unos días serán casi dos décadas en las que el que suscribe ha estado detrás de este rincón. Casi dos décadas exponiéndome todos los días. Casi dos décadas que he vivido blogueando con intensidad. Y haciendo algo de lo que soy experto, que es ser persistente. Constante. Día a día, sin pensar en cuándo acabaré de hacerlo. 

Pero os contaré eso cuando llegue. En un post. Bloguearé sobre eso. Sobre lo que ha sido bloguear para mí estos años. Sobre lo que yo veo y leo de mi blog. Pero hoy, antes de despedir el 2023 con los mejores deseos para vosotros en el 2024, el blog va sobre este año. He hecho los deberes, demonio cabrón; he sido buen estudiante, mamá; he cumplido contigo, Chema Alonso; he superado aquel 2015, tú; y ahora toca un 2024 que tienes que disfrutar, JoséMari

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


sábado, diciembre 30, 2023

Phi-2: La apuesta de Microsoft por los Small Language Models (SLMs)

Microsoft ha ido sacando durante este año una suite de Small Language Models, empezando por Phi-1, de 1.3B de parámetros, que lograba ser competente en programación con Python. Posteriormente lanzaron Phi-1.5, con este mismo número de parámetros, más enfocado a comprensión del lenguaje y razonamiento de sentido común, ofreciendo un rendimiento similar a modelos cinco veces más grandes.

Figura 1: Phi-2: La apuesta de Microsoft por los Small Language Models (SLMs)

Recientemente Microsoft Research ha lanzado el modelo Phi-2, con 2.7B de parámetros, el cual ha sido capaz de mejorar en casos a modelos 25 veces más grandes, encontrándose disponible en Azure AI Studio para experimentar con él, y también en HuggingFace. Esto supone un hito en la investigación de generación de modelos más manejables y accesibles sin perder rendimiento frente a modelos más grandes.

Innovaciones clave

¿Cómo puede un modelo más pequeño competir con gigantes que tienen decenas de miles de millones de parámetros? Una de las claves reside en la calidad de los datos de entrenamiento. Se ha llevado a cabo un enfoque muy riguroso en cuanto a la selección de los datos, incluyendo conjuntos de datos sintéticos creados específicamente para enseñar razonamiento de sentido común y conocimiento general, siguiendo los pasos de su anterior trabajo "Textbooks are all you need". 

Esta cuidadosa selección y mezcla de datos asegura que Phi-2 no solo aprenda, sino que lo haga de las mejores fuentes posibles, cubriendo temas que van desde la ciencia hasta actividades cotidianas y teoría de la mente. 

La segunda clave fue incluir técnicas innovadoras de escalado. Comenzando con su modelo anterior ya comentado, Phi-1.5, de 1.3B de parámetros, los investigadores lograron transferir y amplificar este conocimiento al nuevo modelo de 2.7B de parámetros. Este proceso no solo aceleró la convergencia del entrenamiento, sino que también resultó en una mejora significativa en las puntuaciones de Phi-2 en diversos benchmarks.


El resultado de estas innovaciones es un modelo que no solo iguala, sino que en casos supera a modelos mucho más grandes. En pruebas complejas, Phi-2 ha demostrado igualar o superar el desempeño de modelos hasta 25 veces su tamaño. Esto incluye tareas que van desde razonamiento y comprensión del lenguaje hasta matemáticas y programación, desafiando la percepción tradicional del papel del tamaño en la eficacia de los modelos de lenguaje.

Rendimiento

Cuando se lanza un nuevo modelo de lenguaje, su evaluación rigurosa con diferentes métricas y la preocupación por la seguridad y la imparcialidad son aspectos cruciales en cualquiera de estos. En términos de rendimiento, Phi-2 ha sido evaluado en una amplia gama de benchmarks académicos, donde ha demostrado ser muy competente. Con solo 2.7B de parámetros, ha superado a modelos como Mistral y Llama-2, que cuentan con 7B y 13B de parámetros, respectivamente. Esto es particularmente notable en tareas que implican razonamiento de múltiples pasos, como matemáticas y programación.


En cuanto a la seguridad y la reducción de sesgos, aunque este modelo no ha sido sometido a alineación a través del Aprendizaje Por Refuerzo con Intervención Humana (se explica cómo funciona este tipo de aprendizaje cuando hablamos sobre la creación de ChatGPT) ni ha sido entrenado con derechos constitucionales humanos como hizo Anthropic con Claude, el modelo ha mostrado un comportamiento desarrollado en términos de toxicidad y sesgo en comparación con modelos de código abierto que sí han pasado por estos procesos, aunque es cierto que estos problemas siguen estando presentes.


Este resultado es producto del enfoque cuidadoso y considerado del equipo en la curación de datos y en las prácticas de entrenamiento. En realidad, esta fue siempre una máxima en el mundo de la Inteligencia Artificial: no se trata de cuantos más datos mejor para entrenar, sino de priorizar la calidad de estos, y lo hemos podido ver en la creación de Phi-2.

Conclusiones

La llegada de los modelos Phi por parte de Microsoft no solo desafía la noción de que los modelos más grandes son inherentemente superiores, sino que también abre un nuevo camino hacia la eficiencia y la accesibilidad en la Inteligencia Artificial. No es simplemente un logro técnico, es un paso hacia modelos de lenguaje más prácticos y accesibles para una gama más amplia de usuarios y aplicaciones. 

Figura 6: MarketShare de GenAI. Microsoft arrasa a AWS y Google.

Como os podéis imaginar, Microsoft no piensa quitar el pie del acelerador en su apuesta por la Inteligencia Artificial, y menos ahora que le saca delantera tanto a Google como a Amazon en la carrera por ser la plataforma sobre la que corra el mundo de la GenAI. Puedes consultar los trabajos que Microsoft Research presenta a la comunidad desde su perfil en HuggingFace.

viernes, diciembre 29, 2023

Sh3llCON "Security Hell Conference": Charlas, Talleres de Hacking y un CTF en la ciudad de Reinosa el 26 y 27 de Enero de 2024

No ha acabado el año, y ya os estoy contando CONs de Hacking de 2024, y es que este año que viene promete estar movido. Y si te pilla bien subirte al paraje único de nuestra querida Cantabria a Reinosa, podrás pasar el fin de semana del 26 y 27 de Enero en un CON que ya ha cogido solera con los años, la Sh3llCON "Security Hell Conference", que fundó Sergio Saiz allá por el año 2014. Y por supuesto, habrá reparto de Tempos de MyPublicInbox, y libros de 0xWord que podrás conseguir allí.
En esta edición de Sh3llCON "Security Hell Conference"  habrá dos días de conferencias para sumar un total de 9 ponencias, un día de talleres para aprender en profundidad, y un Capture The Flag  que tendrá lugar por toda la ciudad, así que seguro que es divertido y pasas por sitios que debes pasar.

Figura 2: Agenda de Sh3llCON 2024. Consulta la Web y Compra tu entrada.

Entre los ponentes de esta edición, arrancando el Viernes 26 de Enero, tras la apertura institucional a cargo de Sergio Saiz, tendremos a Sandra Bardón, que lleva años dándole al hacking bien duro, y con la que he tenido el honor de subirme a un escenario a dar una charla juntos. 

Figura 3: La gran Sandra Bardón dará la primera ponencia de Sh3llCON 2024

Y un poco más tarde, al gran José Luis Verdeguer, que ya sabéis que es el autor del libro de "Hacking y Seguridad VoIP" en 0xWord y que hablará de "Cómo hackear Videoporteros VoIP". El viernes también están los talleres de Hacking, donde tendrás al grande, grandísimo, Marc Rivero "Seifreed" dando un taller de iniciación al análisis de Malware.

También para la sesión del Sábado 27 de Enero, tendremos a Roman Ramírez, nuestro PatoWC, fundador de RootedCON, dando la sesión de apertura con una sesión de Frida, o a Pedro Candel "S4uron" que hablará de cómo explotar los side-chanels en los microprocesadores (¿os acordáis de Spectre  & Metldown y todo lo que vino después?).

Figura 5: José Luis Verdeguer, autor del libro de "Hacking y Seguridad VoIP"
en 0xWordserá ponente en Sh3llCON 2024.

Aún no están confirmados todos los speakers de la conferencia, pero puedes visitar la web de Sh3llCON - para ver la agenda y para comprar tu entrada - y consultar todas las actividades que tienes allí ese fin de semana en Reinosa (Cantabria), que puedes compaginar con buena comida, buen paraje, buena compañía.

Si quieres participar o colaborar con la organización de cualquier forma. Ayudar, dar una charla, entrevistar a un ponente durante su paso por la conferencia, o lo que sea, puedes contactar con ellos a través del Buzón Público de Sh3llCON en MyPublicInbox.

Figura 7: Buzón Público de Sh3llCON en MyPublicInbox

Y para que conozcáis mejor Sh3llCON, su espíritu, su historia, y qué os vais a encontrar allí, he hecho una pequeña entrevista a Sergio Saiz, fundador de este congreso para que tengáis el máximo posible de información.

1. ¿Cómo y cuándo nació la idea de Sh3llCON y cómo ha evolucionado el evento desde aquella primera edición hasta ahora en términos de tamaño, alcance y tipo de actividades?.

La idea nació en 2014, tras mi regreso a Cantabria de estar trabajando en Madrid. Allí había descubierto el mundo de la ciberseguridad y los congresos, y al regresar a mi tierra vi que aquí no había nada de eso. Así que me lié la manta a la cabeza, lié a un par de amigos, Carlos y Tomy, y nos montamos nuestro propio congreso. De hecho, en nuestra página web hemos colgado un pequeño artículo sobre cómo surgió y qué es Sh3llCON.

La verdad es que estamos muy contentos con la evolución que ha tenido, puesto que con el tiempo y mucho esfuerzo hemos conseguido que colabore mucha gente. No hemos crecido especialmente en tamaño, puesto que siempre hemos sido una CON “pequeñita”, familiar. Estamos contentos de haber juntado en la misma sala a gente con los mismos intereses: estudiantes, profesionales, entusiastas, Fuerzas y Cuerpos de seguridad del Estado, Gobierno, empresas… Ya no solo de Cantabria, sino que toda España, es muy gratificante (con la responsabilidad que eso conlleva) que venga gente de Galicia, de Barcelona, de Madrid, de Alicante o de Málaga por ejemplo, que sus horas de viaje y su dinero les lleva.
Por lo tanto, las actividades tienen que estar a la altura. Empezamos con algo sencillo, charlas, talleres, y un CTF muy muy básico. Pero estos últimos años nos hemos centrado mucho en el entorno empresarial, quizás por la tendencia a buscar los tan valorados patrocinios, y al final ya sabes el dicho, quien mucho abarca poco aprieta.

2. El nombre es cuanto menos curioso y además sabemos que tiene “sobrenombre” ¿Qué significa "Sh3llCON" y cómo refleja la esencia o los valores del encuentro?.

Realmente es un juego de palabras pero tiene su historia. Recuerdo estar en la primera RootedCON viendo una charla de Rubén Santamarta. Yo todavía estaba en pañales en lo que se refiere a ciberseguridad y ordenadores, pero aún así intenté seguir el hilo hasta que no pude mas (risas). En ese momento pensé “joder, esta charla del infierno me está matando”. 

Figura 10: Román Ramírez, RootedCON founder, será ponente en Sh3llCON 2024.
 
Así que uní los puntos: Seguridad + infierno (hell) + congreso = shellcon. Además, shell en inglés es consola, así que me vino de perlas para reflejar exactamente lo que quería transmitir con el nombre. Y ese también es uno de los motivos por los que intentamos que algunas charlas sean muy técnicas, para que no se aburra nadie.

3. Contadnos algunos de los hitos más significativos o momentos que se os han quedado grabados en la historia de Sh3llCON.

Un momento que nunca se me olvidará y que recuerdo con mucho cariño es cuando empezó a llegar la gente en la primera edición, fue como darse cuenta de que eso era de verdad. Luego hay muchas anécdotas que se pueden contar a medias… Por ejemplo, creo que en uno de los ascensores del hotel donde se han realizado todas las ediciones hasta ahora todavía hay una pegatina de la primera edición. También ese año “amanecieron” las pantallas de los ordenadores del hotel con noticias de hackers como fondo de pantalla. O por ejemplo, que alguien hizo una “auditoría gratuita” a la red del hotel.

Otra de las cosas que nos han sucedido es que en casi todas las ediciones alguien acababa desgraciadamente en el hospital y queremos quitarnos esa losa de encima. Pero sin duda alguna, lo que más nos sigue reconfortando es que la gente se apunte, pague la entrada y participe en las actividades. Porque es por eso mismo por lo que hicimos esto, para la gente.

4. ¿Qué aspectos de Sh3llCON de este año creéis que lo diferencian o lo hacen especial en comparación con citas anteriores?. ¿Qué destacamos de la agenda 2024?.

Sin duda el lugar, Reinosa, y en pleno invierno. Tenemos la suerte de poder hacerlo en el Teatro Principal y en La Casona, ambos sitios emblemáticos de allí y creo que eso le va a dar el toque familiar que nos caracteriza.

Figura 11: Pedro Cnadel "S4uron" será ponente en Sh3llCON 2024

Y otra novedad que hemos querido hacer otros años y no se ha podido, es que en el CTF habrá pruebas en las que los participantes tengan que moverse por las calles, tipo escape room pero de hacking, y en la calle. ¡Así que ya puede venir la gente abrigada! Además habrá una pequeña sorpresa en las reglas, no la voy a desvelar, pero los participantes tendrán que vigilar sus espaldas.

5. ¿Cómo hacéis para seleccionar las/os ponentes y los temas de las charlas y talleres? .

Los primeros años abríamos un Call For Papers, pensábamos que era buena idea para dar la oportunidad a todo el mundo de presentar su charla. Después valorábamos muchas cosas, el nivel técnico, la temática, la variedad, que no se hubiera dado en otras CONs ya, etcétera. Pero eso al final daba mucho trabajo y no siempre salía el congreso que querías. Así que decidimos cambiar, y ya que somos un congreso familiar, llamamos nosotros mismos a la gente para ver si se anima a pasar un fin de semana divertido, y de paso se marca una charla. 

¡Eso no quiere decir que no estemos abiertos a nuevas ideas! Siempre escuchamos a todo el mundo y estamos encantados de recibir propuestas.

6. ¿Cómo percibís el impacto y el retorno de Sh3llCON en la comunidad de ciberseguridad y en el público general?

Creo que a la gente le ha gustado que regresemos, quizá esperaban que se hiciera en Santander ya que siempre es más cómodo hacerlo en las capitales de provincia, pero aún así creo que es algo positivo para la comunidad en general y para Cantabria y el norte en particular en lo que respecta a ciberseguridad, puesto que es un aspecto (la ciberseguridad) que nos involucra a todos cada día mas y desde más jóvenes, de modo que todo lo que podamos hacer merecerá la pena. De hecho, creo que debemos apoyarnos entre las CONs y colaborar haciendo cosas juntos, por ejemplo una macro CON donde colaboren todas, creo que sería algo bonito y, quien sabe, puede marcar un hito en la historia de las CONs españolas.

7. Hablemos un poquito de futuro ya que el presente de la edición 2024 está tan cerca. ¿Cómo veis el futuro de Sh3llCON? ¿Hay planes para expandir, cambiar o introducir nuevos elementos en las próximas ediciones?

Por supuesto, la idea con la que empezamos todo esto es que todo el mundo tenga un espacio para mostrar sus proyectos, que puedan hacer networking en un espacio cómodo, que haya charlas de todos los niveles, competiciones, etc. Pero para eso tienes que calar en la gente, tienes que ofrecer algo que no ofrezca nadie o estar en un sitio geográfico privilegiado, y eso es muy difícil. Por otro lado, intentar llegar a más gente, que el término “ciberseguridad” no le suene a rayos a la gente de la calle. 

Figura 12: Marc Rivero dara un taller en  Sh3llCON 2024 
 
De hecho, una de las cosas que me frustran mucho es cuando vas a un colegio a presentar el congreso y ofrecerles ir a una charla para chavales, y te dicen “no, si aquí ya viene la Guardia Civil a dar charlas”. Que está muy bien y lo digo con todo el respeto del mundo, pero no se acaba ahí todo. Además de pasarlo bien en las CONs (que lo hacemos), es nuestro deber como expertos el ponérselo fácil a los demás, porque “los malos” no van a distinguir a quién atacan.


¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


jueves, diciembre 28, 2023

El Humano Digital de Chema Alonso dará charlas por vídeoconferencia a partir de 2024.

*** Éste artículo fue una inocentada de El día de los Inocentes en España. Ya veremos en el futuro, por ahora no tengo Humano Digital de Chema Alonso, pero... estamos trabajando en ello :) ***

Como sabéis, llevo mucho tiempo hablando de los Humanos Digitales, y es que hemos estado trabajando con Be Humans, la empresa que crea trabajadores digitales basados en Inteligencia Artificial para poder tener trabajando el año que viene al Humano Digital de Chema Alonso. Y os o preguntaréis, ¿con qué objetivo? Pues el de ayudarme a dar charlas por vídeo-conferencias... y ya veremos si a hacer entrevistas en videopodcasts o en programas de televisión en el futuro cercano.

Figura 1: El Humano Digital de Chema Alonso dará
charlas por vídeoconferencia a partir de 2024.

A través de mi buzón público en MyPublicInbox recibo las peticiones para ir a dar conferencias a eventos, colegios, CONs o ferias. Lleno mi agenda con participaciones en este tipo de charlas, pero la verdad es que muchas se quedan sin atender por muchos motivos, pero uno de ellos es por problemas de agenda. 
Para poder dar más charlas, trabajando con Rames Sarwat, decidimos crear un Humano Digital de Chema Alonso con el equipo de Be Humans, para poder dar las charlas que sean por vídeo conferencia en mi lugar. Y no ha sido un trabajo tan complicado. 

Al final, lo único que hacemos es crear un avatar realista que, con técnicas de DeepFakes, convertimos en un Humano Digital de Chema Alonso. Después, le ponemos en un fondo cualquiera, para poder estar en una Teams, un Google Meet o un Zoom.

Figura 4: Humanos Digitales por Chema Alonso en ForoTech

Este Humano Digital de Chema Alonso hace uso de mi Voz Clonada con las técnicas que os contamos en la charla de RootedCON de "Are You Talkin' Ta me?" para que cuando hable sea mi voz la que se escucha. Después le ponemos el discurso para que lo recite, con las pausas que yo haría, y a la velocidad en la que yo lo haría.

Figura 5: DeepFake + Voz Clonada + Lips Sync

Pero la magia viene con el trabajo que hemos hecho para poder poner entonaciones y sentimientos con metadatos que configuran el ritmo de la voz tal y como lo quiero yo en un discurso. Y para terminar, sincronizamos el paso de las diapositivas con el punto del discurso en el que el Humano Digital de Chema Alonso está dando la conferencia.

Figura 6: Test de Humano Digital de Chema Alonso en una Vídeo Conferencia

El trabajo grande es hacer las charlas enteras en texto, pero para ello he partido de la transcripción - usando Inteligencia Artificial - de las conferencias que he dado en los últimos tres años. Con estos textos, para mí ha sido un trabajo de copiar y pegar las partes que iba a reutilizar, y añadir las partes nuevas. Cada diapositiva un texto, unos chistes, y listo.

Figura 7: Test de Humano Digital de Chema Alonso en otro fondo

Además, el Humano Digital de Chema Alonso lo puedo configurar con cualquiera de los diseños que me haga en tiempo real con el servicio de Stable Difussion en MyPublicInbox, haciendo en tiempo real Lip Sync para que la voz corresponda con el movimiento de la boca.

Figura 8: Stable Diffusion de MyPublicInbox + Talking Heads +
+ Voz Clonada + Lips Sync

Esto me va a permitir dar muchas más charlas al año, gracias a que podrás tener en diferentes modos. Podrá ser una charla presencial - que será más costosa de conseguir -, en modo vídeo conferencia con Humano Real de Chema Alonso, o en vídeo conferencia con Humano Digital de Chema Alonso.

Figura 9: Humano Digital de Chema Alonso con el avatar creado con el
servido de Stable Difussion en MyPublicInbox. Elige tú la camiseta.

Y si quieres, podemos configurar la camiseta que quieras que lleve, o el tipo de diseño de Humano Digital de Chema Alonso que prefieras, que lo configuramos en unos minutos con el servicio de Stable Difussion en MyPublicInbox. Así que, si quieres una conferencia del Humano Digital de Chema Alonso por vídeo conferencia, ya puedes contactar conmigo a través de mi buzón en MyPublicInbox, y te confirmamos los detalles. 


Además, ten en cuenta que te la podemos grabar antes - y la emites en tu evento cuando quieras - y si quieres, el Humano Digital de Chema Alonso te responde preguntas, que lleva un LLM entrenado con todas las charlas que hemos transcrito, y si es una pregunta genérica del tipo "¿Cómo se puede estar más seguro en Internet?", tira del API de GPT4 de OpenAI para darte la mejor respuesta posible, que es lo que hago yo siempre que me preguntan eso en una entrevista escrita.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


miércoles, diciembre 27, 2023

MLX o ML Explore: El framework de Apple para Inteligencia Artificial

Tras haber sido evaluado durante todo este verano, Apple acaba de anunciar MLX o ML Explore, un framework para Machine Learning diseñado específicamente para Apple silicon. Este hecho marca un hito importante en la trayectoria de la empresa en el ámbito de la IA. Con MLX, Apple intenta posicionarse de manera estratégica en el competitivo mundo de la Inteligencia Artificial.


El diseño de MLX está inspirado en frameworks existentes como PyTorch o JAX, pero a diferencia de estos, ofrece un soporte para un modelo de memoria unificada, lo que significa que los arrays pueden vivir en memoria compartida y las operaciones pueden realizarse en cualquier tipo de dispositivo (CPU o GPU) sin tener que hacerse copias de datos, no como en otros frameworks donde por ejemplo es necesario mover estructuras de datos un dispositivo a otro.

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

La API Python ofrecida es muy similar a Numpy, con ligeras excepciones, además de ofrecer una API C++ también similar a la API Python, permitiendo accesibilidad para una amplia gama de desarrolladores con diferentes preferencias y experiencias.


Para poder realizar la instalación de MLX debes comprender algunos conceptos básicos. En esta página se puede consultar toda la documentación necesaria para empezar a utilizar este framework. En el caso de usar Python, simplemente habría que hacer pip install mlx. 

Figura 4: Libros de Python para Pentesters y Hacking con Python
de Daniel Echeverri publicados en 0xWord.

En este caso para poder utilizar este framework se necesita un chip de la serie M (Apple Silicon), una versión Python >=3.8 y MacOS >=13.3, aunque se recomienda bastante utilizar MacOS 14 (Sonoma). El paso más básico es la creación de un array. Para ello, importamos mlx.core:

import mlx.core as mx
Y ya podemos proceder a la creación del array:
a = mx.array([1, 2, 3, 4])
b = mx.array((9, 8, 7, 6))

Cuando creamos un array en MLX no hay que especificar su localización, ambos viven en memoria unificada. Como ya se ha comentado, a diferencia de otros frameworks, no es que los arrays se muevan a dispositivos (como a la GPU), sino que simplemente se especifica el dispositivo a utilizarse cuando ejecutas la operación deseada que hace uso de estos arrays:

mx.add(a, b, stream=mx.cpu)
mx.add(a, b, stream=mx.gpu)

Si no existen dependencias entre las operaciones estas se ejecutarán en paralelo. En caso de existir alguna, MLX gestionará automáticamente que se ejecute la operación dependiente al finalizar la independiente. En el repositorio oficial de MLX puedes ver ejemplos para generar imágenes con Stable Diffusion, generar texto con un modelo de lenguaje y transcribir audios con Whisper, entre otros.

Acercando la IA avanzada al iPhone

El pasado 12 de Diciembre de este año, Apple ha publicado el artículo "LLM in a flash: Efficient Large Language Model Inference with Limited Memory", destacando un posible avance significativo en el campo del procesamiento de lenguaje natural. Los LLMs se están convirtiendo en algo esencial como asistentes en nuestra vida cotidiana, pero su alta demanda de recursos computacionales y de memoria representa un desafío, especialmente en dispositivos con DRAM limitada. El artículo aborda esta problemática mediante un enfoque que consiste en almacenar los parámetros de los LLMs en memoria flash, transfiriéndolos a DRAM según sea necesario. Este método no solo mejora la eficiencia, sino que también permite la ejecución de modelos que exceden la capacidad de memoria DRAM disponible.


En el documento, se introducen dos técnicas principales para optimizar este proceso. La primera, conocida como Windowing, reduce la transferencia de datos mediante la reutilización de neuronas ya activadas. La segunda técnica, Row-Column Bundling, se adapta a las fortalezas de acceso secuencial de la memoria flash, permitiendo leer datos en bloques más grandes. Estas innovaciones colectivas posibilitan la ejecución de modelos hasta dos veces más grandes que la capacidad de DRAM disponible, logrando un aumento notable en la velocidad de inferencia, que varía entre 4 y 25 veces más rápido que los métodos de carga convencionales.

Este progreso abre nuevas perspectivas para la implementación eficaz de LLMs en dispositivos con restricciones de memoria, lo cual puede marcar un hito importante en la evolución de la tecnología de procesamiento de lenguaje natural. 
Con el nuevo framework MLX, que hace uso de todo el potencial del hardware de Apple, y las nuevas investigaciones que va realizando su área de Machine Learning Research, parece haber claras intenciones de aprovechar al máximo todo lo que la Inteligencia Artificial pueda ofrecer en todos sus dispositivos, desde el Mac al iPhone, pasando por el iPad.

Conclusiones

Aunque Apple ha mantenido un perfil relativamente bajo en el escenario de la IA Generativa hasta ahora, el lanzamiento de MLX podría ser un indicativo de futuras iniciativas y desarrollos. Es una declaración de intenciones, a través de ML Explore y las nuevas investigaciones Apple está facilitando un terreno fértil para la innovación y el desarrollo en IA, lo que podría tener implicaciones significativas para el futuro de la tecnología y su integración en nuestra vida cotidiana. 
Puedes consultar todas las investigaciones que realiza Apple en el mundo de la Inteligencia Artificial en la web del Machine Learning Research at Apple, donde publican sus trabajos el equipo de investigación en Machine Learning.

Un saludo,

Autor: Javier del Pino, intership en Ideas Locas

martes, diciembre 26, 2023

Todas las Codetalks de 2023 del equipo de Ideas Locas: Aprende IA, Web3, Pentesting, Hacking o Machine Learning

Durante este año 2023 hemos seguido con nuestros CodeTalks4Devs by  Ideas Locas. Ya llevamos varios años con estos pequeños vídeos de unos 20 a 25 minutos de duración donde contamos tanto nuevas tendencias en tecnología y ciberseguridad como nuestros proyectos que desarrollamos en el equipo de Ideas Locas
En este artículo os recopilo todos los que hemos publicado, cada uno hablando de un tema de actualidad tecnológica distinto y mostrando, como siempre, su punto de vista más técnico para animarte a hacer tus propios proyectos.


Tienes todos los CodeTalks en esta web, desde los últimos publicados este año hasta el acceso a las cinco temporadas anteriores, pero vamos a comentar uno a uno todos los que hemos publicado este año para que sepas un poco mejor el contenido de estos:

Episodio T06x04: Deep Fake Detector, detectando deepfakes

En este primer capítulo de la temporada, Fran Ramírez habla en profundidad de nuestra aplicación Deep Fake Detector o DFD. Este programa creado en Python y en Windows, está diseñado para integrar modelos que puedan detectar deepfakes pero siempre enfocado al a detección en tiempo real. 

Es decir, puedes abrir cualquier ventana que contenga un vídeo o una llamada de vídeoconferencia y con DFD es posible detectar si es una Deepfake o no. Una aplicación que estamos desarrollando y ampliando todos los días y cada vez tiene más y mejores motores de detección.

Episodio T06x05: Web3 Evolution

El segundo capítulo de esta temporada habla de la Web3. En él, Chema Garabito hace una introducción desde cero a la Web3, pasando por su evolución hasta el día de hoy. También nos cuenta los requisitos y herramientas más utilizadas dentro del mundo del Web3 para que puedas iniciarte en caso de no estar familiarizado con esta tecnología.

Figura 5: Vídeo de Web3 Evolution

Un vídeo perfecto para una primera introducción y entender la Web3 además de sus componentes como DAOBlockchainSmartContract, etcétera.

Episodio T06x06: LevelUp. Juega y descubre las vulnerabilidades.

Pablo González nos habla de nuevo de Web3 pero esta vez con un enfoque distinto. Pablo nos cuenta en este CodeTalk una plataforma desarrollada por Ideas Locas llamada LevelUp! La cual nos ofrece un reto muy interesante, un “captura la bandera” o “capture the flag” (CFP) para aprender practicando, sobre la seguridad de la Web3 y en concreto de los SmartContracts


Figura 6: Vídeo Codetalk sobre Level_Up!

La plataforma tiene varios niveles con diferentes retos a superar que a su vez nos ayudan a obtener buenas prácticas a la hora de programar SmartContracts. Un vídeo que no te puedes perder si te interesa la seguridad de la Web3 o para aprender desde la base, a programar de modo seguro.

Episodio T06x07: Tkinter a PySide: Explorando Interfaces Gráficas en Python

Python es sin duda el lenguaje de programación de moda a día de hoy, principalmente por el auge de la Inteligencia Artificial, donde tiene una posición dominante. Pero en este CodeTalkÁlvaro Núñez-Romero nos habla de un tema muy interesante: cómo crear interfaces gráficas en Python. Esto es importante a la hora de hacer llegar a más gente nuestra aplicación, creando un entorno amigable, efectivo y visualmente atractivo para utilizar nuestro programa.


Figura 7: Vídeo de Tkinter a PySide, Explorando Interfaces Gráficas en Python

Pero además hace un repaso desde Tkinter, pasando por PyQT para centrarse en otro que quizás no es tan conocido como los anteriores, PySide. No te pierdas este vídeo si quieres aprender cómo hacer una interfaz gráfica para tu programa en Python.

Episodio T06x08: Detectar Voces Clonadas en DeepFakes usando Machine Learning

Viendo lo sencillo que es hoy día clonar una voz, es importante comenzar a desarrollar aplicaciones que puedan detectarlas y así evitar todo tipo de engaños. Javier del Pino () no explica en este CodeTalk cómo podemos detectar voces clonadas.

Figura 8: Detectar Voces Clonadas en DeepFakes usando Machine Learning  

Episodio T06x09: Cómo crear tu propia aplicación de IA con Python

En este CodeTalk 4 Developers nuestro compañero Pablo Gómez Álvarez te contará en menos de media hora cómo podemos crear nuestra propia aplicación de Inteligencia Artificial usando nuestro querido lenguaje Python para utilizar Inteligencia Artificial, que ya sabemos lo bueno que es Python para pentesting y para hacer hacking con Python.

Figura 9: Libros de Python para Pentesters y Hacking con Python
de Daniel Echeverri publicados en 0xWord.

Para ello nos explicará cómo hacerlo utilizando un Pipeline, donde sólo tenemos que preocuparnos por la entrada y por la salida. El procesamiento de los datos interno del modelo IA seleccionado será tarea de HuggingFace y el pipeline. Pero, además, utilizando Gradio también nos explicará cómo implementarlo con su propia interfaz de usuario. 

Figura 10: Cómo crear tu propia aplicación de Inteligencia Artificial con Python

El ejemplo en concreto que nos muestra Pablo Gómez Álvarez se centra de forma práctica en cómo crear un pipeline de una aplicación para el análisis de sentimientos de texto desde cero y nos habla de cómo desplegar nuestra aplicación de Machine Learning paso a paso.

Episodio T06x10: Explorando las vulnerabilidades en SmartContracts

Ya hablamos de Level_Up! en otro CodeTalk pero esta vez Álvaro Núñez-Romero nos va a hablar específicamente de los SmartContracts y cómo utilizar la plataforma de level_up! para aprender sobre la seguridad de este elemento tan importante en la BlockChain.
 
Figura 11: Explorando las vulnerabilidades en SmartContracts

Episodio T06x11: Interactuar con la Inteligencia: Langchain en la intersección del lenguaje y la IA

En la Inteligencia Artificial, estamos presenciando una revolución en la que las barreras entre la comunicación humana y la máquina se están desvaneciendo, abriendo un mundo de posibilidades en cuanto a la interacción hombre-máquina. Y Héctor Cordobés de la Calle nos lo explica hablando de la importancia de LangChain y cómo utilizarlo.

Figura 12: Interactuar con la Inteligencia: Langchain en la intersección del lenguaje y la IA  
En este Codetalk nuestro compañero Javier Álvarez nos habla de las herramientas OpenSource creadas por el equipo de IdeasLocas incluidas en CrazyToolBox, que te facilitará el trabajo a la hora de investigar en la Web3 o incluso en la creación de SmartContracts. Podrás encontrar herramientas como conversores de unidades, codificador de selector de funciones, validador EIP55, etcétera, entre otras muchas que puedes ver en el siguiente vídeo.

Figura 13: CodeTalk sobre CrazyToolbox: Una navaja suiza para Web3 y BlockChain

Puedes encontrar más información de CrazyToolBox en el artículo que publicó nuestro compañero Álvaro Núñez-Romero por aquí, puedes conseguir la herramienta en  el repositorio de CrazyToolBox en GitHub

Temas y Proyectos de Ideas Locas

Pues estos son los CodeTalks que hemos publicado en 2023. El año que viene seguiremos publicando un episodio de estos CodeTalks cada mes para mantenerte al día en estos temas tan importantes dentro de la tecnología, y encantados de que nos propongáis ideas locas, proyectos o temas que tocar.


Así que no te los pierdas, y nos veremos en el próximo episodio, y recuerda que tienes todas las Codetalks4devs en una sola lista de Youtube, para que las puedas ver seguidas una tras otra... 

Figura 15: Sección Apps, Educación y Cultura

Y si quieres verlas en la tele, recuerda que en la Sección APPS -> Educación y Cultura, tienes la Living App de las CodeTalks by Ideas Locas de tu Movistar+

Figura 16: Living App Codetalks by Ideas Locas

Solo debes entrar en ella y tendrás acceso a todos los Webinars en formato Codetalk que vamos realizando.

Happy Hacking Hackers!!! 

Autor: Fran Ramírez, es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro "Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)", del libro "Docker: SecDevOps", también de "Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.

 Contactar con Fran Ramírez en MyPublicInbox