Empowering Cyber Intelligence with Natural Language Processing

By Daniel Díaz-López

Elevator Pitch

Cuando se desea prevenir actos violentos gestados en redes sociales la cantidad de datos a analizar puede ser abrumadora. En esta charla se expone una solución de ciberinteligencia basada en Procesamiento de Lenguaje Natural que detecta movimientos coordinados que incitan al odio y la violencia

Description

Imagine que usted trabaja en un centro de operaciones de seguridad, como analista de ciberinteligencia en pro de proteger los activos de organizaciones o incluso la infraestructura crítica de un país. Le han designado de manera particular detectar actos que puedan ser considerados violentos contra personas u organizaciones y que se gesten desde las redes sociales en la web superficial o en la deep web. En cuestión de horas usted visualiza que existen varios mensajes generando odio entre la población e incitando hacia la violencia contra un determinado actor. Usted intenta analizar los datos lo más rápido que puede, pero la cantidad de información es tal que se siente desbordado y sin poder definir un rumbo de acción claro para contener la situación. En este tipo de escenarios, las capacidades de análisis humanas pueden verse apoyadas por un sistema de ciber inteligencia que utilice técnicas de procesamiento de grandes volúmenes de datos con modelos de procesamiento de lenguaje natural, para identificar grupos, estructuras y actores que inciden de manera directa en este tipo de campañas ofensivas, y para prevenir que se materialice una acción ofensiva. Este tipo de sistemas basados en inteligencia artificial se vienen utilizando para brindar capacidades de reacción y contención por parte de diferentes actores, sin embargo aún no se han popularizado en diferentes centros de operaciones que aún siguen dependiendo de labores de análisis netamente manuales. En esta charla usted aprenderá sobre una solución de ciber inteligencia basada en NLP que permite hacer detección de movimientos coordinados en redes sociales que incitan al odio y la violencia contra un determinado objetivo.

En esta charla se mostrará como el Procesamiento de Lenguaje Natural (NLP), que es una rama de la inteligencia artificial, puede ser aplicable para mejorar un ejercicio de ciberinteligencia sobre grandes volúmenes de datos. Primero se mostrará la forma como se puede convertir texto no estructurado en un formato procesable por un modelo NLP, como por ejemplo el texto proveniente de tweets o post dentro la deep web, foros de hacking o redes sociales en general. También se mostrarán ejemplos de modelos NLP que son capaces de identificar intenciones, sentimientos, entidades, tópicos, entre otros a partir de un texto de entrada. Este tipo de modelos son los mismos utilizados en soluciones de análisis de texto como ChatGPT o Bing Chat.

Segundo, se mostrará cómo los modelos de NLP pueden usarse dentro de un ciclo de ciberinteligencia que contiene una identificación de un escenario, unos recolectores, modelos de análisis de datos y generación de información accionable. De esta forma se demostrará que NLP puede ayudar de manera directa a mejorar la detección de escenarios de interés para la seguridad nacional como aquellos asociados a la radicalización de individuos, la instigación a la violencia, la promoción de la desestabilización de un estado, la distribución de contenido ciberterrorista, entre otros. El foco de está parte de la charla estará centrado en un fenómeno conocido como Manipulación Social Hostil (HSM) que consiste en la persuasión de la población por parte de un actor de amenaza, con el fin de incitarlo a generar violencia contra un objetivo.

Adicionalmente, se mostrarán los resultados de toxicidad detectados con estos modelos en el marco de las últimas elecciones al congreso de los Estados Unidos, realizadas el pasado 8 de noviembre del 2022. Fruto de estos resultados, se podrán investigar el fenómeno de terrorismo interno proveniente de grupos radicales dentro de los Estados Unidos. Esta parte de la charla es derivada de una investigación realizada en conjunto entre los speaker y personal del Center for Cybersecurity de la Universidad de Nueva York.

Finalmente, en esta charla se mostrarán los resultados de la aplicación de un ciclo de ciberinteligencia sobre un escenario en el que se presume hubo Manipulación Social Hostil en un país latinoamericano. En este ejercicio se recorrerá el ciclo de ciencia de datos fundamentado en la recolección, preprocesamiento, modelamiento y despliegue de una solución de analítica de datos.

El código utilizado para las demostraciones incluidas en esta charla se pondrá a disposición del público.

Notes

Los speakers de esta charla son talento colombiano, autores de varios de artículos de investigación sobre el uso de Natural Lenguaje Processing en labores de ciberinteligencia, presentados en diferentes conferencias de ciberseguridad y revistas científicas, por ejemplo:

  • Sánchez J. et al., “On the Power of Social Networks to Analyze Threatening Trends,” in IEEE Internet Computing, vol. 26, no. 2, pp. 19-26, 1 March-April 2022, Link to download
  • Zapata A., Díaz-López D.l, Pastor-Galindo J., Gómez Mármol F., “FCTNLP: An architecture to fight cyberterrorism with natural language processing”. VII Jornadas Nacionales de Investigación en Ciberseguridad (JNIC), Bilbao, 2022. Link to download
  • Sánchez J. et al., “Uncovering Cybercrimes in Social Media through Natural Language Processing”, Complexity, vol. 2021, Article ID 7955637, 15 pages, 2021. Link to download

Los speakers de esta charla tienen el siguiente perfil:

Andrés Zapata es analista de calidad en SOC Telefónica Tech, especialista en Ciberseguridad y Científico de Datos. Está capacitado para realizar análisis de amenazas, evaluaciones de vulnerabilidad, pruebas de penetración, análisis forense y respuesta a incidentes. Además, utiliza técnicas de Machine Learning y Arquitecturas Big Data para diseñar soluciones de seguridad. Linkedin Profile

Alejandra Campo Archbold es economista y estudiante de último semestre de Matemáticas Aplicadas y Ciencias de la Computación, tiene experiencia en investigación en modelos de inteligencia artificial y ciberseguridad. Ha trabajado como arquitecta de datos en el diseño e implementación de estrategias para optimizar el flujo de la información. Linkedin Profile

Daniel Díaz es doctor en Informática en el área de ciberseguridad. Es profesor de carrera de la Universidad del Rosario para el programa de pregrado en Matemáticas Aplicadas y Ciencias de la Computación. Daniel es investigador en ciberseguridad con diferentes publicaciones en revistas y congresos sobre técnicas de inteligencia de ciberamenazas, mecanismos de preservación de la privacidad, ciclo de vida de desarrollo de software seguro, técnicas de hacking ético y seguridad para Internet de las Cosas (IoT). Linkedin Profile