2 de noviembre de 2024

Investigadores del Reino Unido logran traducir sonidos de teclas de laptop en texto con un 95 por ciento de precisión

En un avance tecnológico sorprendente, investigadores en el Reino Unido afirman haber logrado traducir los sonidos de las teclas de una laptop en sus letras correspondientes con una precisión del 95 por ciento en algunos casos.

Foto de Hitesh Choudhary en Unsplash

Este impresionante porcentaje de precisión fue alcanzado utilizando solamente un iPhone cercano. Incluso en métodos remotos, los resultados siguen siendo asombrosos: a través de Zoom, la precisión en la traducción de las teclas grabadas solo descendió al 93 por ciento, mientras que las llamadas por Skype aún mantuvieron un nivel de precisión del 91.7 por ciento.

En otras palabras, nos enfrentamos a un ataque de canal lateral con una precisión considerable, requisitos técnicos mínimos y un punto de exfiltración de datos ubicuo: los micrófonos, que se encuentran en todas partes, desde nuestras laptops hasta nuestras muñecas, y en las mismas habitaciones en las que trabajamos.

Lo que agrava la situación es que, de acuerdo con los investigadores en su artículo, han logrado este impresionante récord de precisión en ataques de canal lateral acústico (ACLA) sin depender de un modelo de lenguaje. En cambio, utilizaron aprendizaje profundo y capas de transformadores de autoatención para capturar los sonidos de la escritura y traducirlos en datos para la exfiltración.

En ocasiones anteriores, hemos discutido sobre cómo las personas han utilizado los micrófonos de maneras interesantes para espiar a otros; por ejemplo, experimentos que involucraban micrófonos láser y discos duros. Sin embargo, en última instancia, por lo general es más fácil instalar software malicioso en la computadora de un objetivo y acceder a sus datos y pulsaciones de teclas de esa manera, sin recurrir a artimañas propias de James Bond.

Defenderse contra los «Ataques de Canal Lateral Acústico Automatizados Completamente en el Sitio y Remotos»

Para transformar los sonidos de las pulsaciones de teclas en letras reales, los investigadores grabaron a una persona escribiendo en una MacBook Pro de 16 pulgadas del 2021, utilizando un teléfono colocado a 17 centímetros de distancia. Luego procesaron los sonidos para obtener las firmas de las pulsaciones de teclas. Estas firmas fueron luego analizadas por un modelo de aprendizaje profundo, que las ingresó en redes de convolución y atención para adivinar qué tecla específica, o secuencia de teclas, fue presionada.

Para aumentar los temores de seguridad, «grabar de esta manera no requirió acceso al entorno de la víctima y en este caso, no necesitó ninguna infiltración en el dispositivo ni en la conexión,» señalaron los expertos.

«Los clasificadores del teléfono y las grabaciones a través de Zoom alcanzaron una precisión de vanguardia con un mínimo de datos de entrenamiento en una distribución aleatoria de clases,».

Equipo de investigación

Como suele ocurrir con los ataques de canal lateral, la mitigación no siempre es sencilla. Afortunadamente, en este caso no se trata de fugas inevitables de datos como el uso de energía, frecuencias de la CPU, luces intermitentes o buses de RAM. Más bien, es un problema clásico que ocurre entre la computadora y la silla, que en realidad puede ser mitigado de manera relativamente fácil.

Los investigadores sugieren que el método de protección más simple es cambiar el estilo de escritura. Observan que los usuarios hábiles en la escritura por tacto son más difíciles de detectar con precisión, con un reconocimiento de tecla individual que pasa del 64 al 40 por ciento a las velocidades más altas habilitadas por esta técnica.

Para aquellos que no desean tomarse el tiempo para aprender a escribir con destreza, el equipo recomienda algunas técnicas adicionales, como el uso de contraseñas aleatorias con múltiples casos. «Múltiples métodos logran reconocer una pulsación de la tecla Shift,» dijeron los académicos, pero «ningún estudio en la literatura investigada logró reconocer el ‘pico de liberación’ de la tecla Shift en medio del sonido de las otras teclas.»

En otras palabras, mezclar letras mayúsculas y minúsculas sigue siendo una buena práctica. El equipo también mencionó que aquellos preocupados por los ataques de canal lateral acústico también pueden usar un segundo factor de autenticación para prevenir que alguien espíe las pulsaciones de teclas y robe contraseñas.

Todo esto es útil para proteger contraseñas, pero ¿qué pasa con otra información secreta, como registros de la empresa o información de los clientes? Para abordar esta preocupación, los investigadores sugieren reproducir sonidos falsos de pulsaciones de teclas para enmascarar las reales.

Trabajar en medio del sonido de teclados fantasma seguramente molestaría a todos, por lo que los investigadores sugieren agregar los sonidos a las transmisiones de Skype y Zoom después de que hayan sido grabadas, en lugar de someter a los empleados a ruidos en tiempo real. Según el equipo, esto «parece tener el mejor rendimiento y causar el menor molestia al usuario.»

Actualmente, se están llevando a cabo investigaciones adicionales para utilizar nuevas fuentes de grabaciones, como altavoces inteligentes, técnicas de aislamiento de pulsaciones de teclas mejoradas y la incorporación de un modelo de lenguaje para hacer que el espionaje acústico sea aún más efectivo.


Fuente: Arxiv.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *