Un investigador de seguridad desarrolló una aplicación vulnerable para evaluar si modelos de lenguaje (LLMs) podían explotar fallos comunes en aplicaciones. A pesar de un gasto de $1,500 en pruebas, los resultados variaron significativamente entre los modelos, con algunos mostrando altas tasas de éxito en la identificación de vulnerabilidades relacionadas con Firebase. El autor reflexiona sobre la experiencia y los desafíos enfrentados durante el proceso, destacando la necesidad de mejorar la infraestructura de pruebas.
kasra.blog
Tecnologa
Evaluación de Modelos de Lenguaje: Desafíos y Éxitos en la Detección de Vulnerabilidades