El nuevo “sexto sentido” de la ciberseguridad: IA multimodal
Una investigación de Sophos X-Ops utiliza esta tecnología para clasificar el spam, el phishing y el contenido web no seguro.
En la conferencia Virus Bulletin de 2024, el Principal Data Scientist de Sophos, Younghoo Lee, presentó un artículo sobre la investigación de SophosAI sobre la IA multimodal (un sistema que integra diversos tipos de datos en un marco analítico unificado). En su charla, Lee exploró la novedosa investigación empírica del equipo sobre la aplicación de la IA multimodal a la detección de spam, phishing y contenido web no seguro.
¿Qué es la IA multimodal?
En lugar del análisis tradicional de un solo modo, los sistemas multimodales pueden procesar múltiples flujos de datos simultáneamente, sintetizando información de múltiples entradas. Esto representa un cambio significativo en la Inteligencia Artificial.
En el contexto de la ciberseguridad, y en particular cuando se trata de clasificar amenazas, esta es una capacidad poderosa. En lugar de analizar el contenido textual y visual por separado, un sistema multimodal puede procesar ambos y «entender» las intrincadas relaciones entre ellos.
Por ejemplo, en la detección de phishing, la IA multimodal examina los patrones lingüísticos y el estilo de escritura del texto junto con la fidelidad visual de los logotipos y los elementos de marca, al tiempo que analiza la coherencia semántica entre los componentes textuales y visuales. Este enfoque holístico significa que el sistema puede identificar ataques sofisticados que podrían parecer legítimos si fueran analizados por sistemas más tradicionales. Además, la IA multimodal puede aprender de las correlaciones entre diferentes tipos de datos y adaptarse a ellas, desarrollando un sentido de cómo el contenido legítimo y malicioso difiere en múltiples dimensiones.
Capacidades de detección de IA multimodal
En su investigación, Lee detalla algunas de las capacidades, destacando que puede realizar análisis de texto y comprensión del lenguaje natural, estudiando patrones lingüísticos, estilo de escritura y pistas contextuales para identificar intentos de manipulación, así como detectar tácticas de ingeniería social como la “falsa urgencia” o solicitudes inusuales de información sensible. La tecnología también mantiene una base de datos en evolución de pretextos y narrativas de phishing.
Otros atributos de la IA multimodal están relacionados con inteligencia visual y verificación de marca, ya que puede comparar logotipos, estilo corporativo y diseños visuales con plantillas legítimas, así como detectar diferencias sutiles en colores, fuentes y diseños corporativos, así como examinar metadatos de imágenes y firmas digitales.
Las capacidades son tales, que también puede analizar de forma avanzada las URL y la seguridad, identificando técnicas engañosas como la usurpación de dominios y ataques homográficos, así como revisar las relaciones entre el texto del enlace mostrado y los destinos reales, y cualquier intento por ocultar URLs maliciosas con trucos de estilo y formato.
El panorama digital está en constante evolución, lo que conlleva una serie de nuevas amenazas, como el uso de IA generativa para engañar a los usuarios.
De cara al futuro, la incorporación de la IA multimodal en las estrategias de ciberseguridad no solo es beneficiosa, sino que es crucial para garantizar la protección del entorno digital en medio de complejidades y amenazas crecientes.