OpenAI Permite Bloquear su Rastreador Web para Entrenar Modelos GPT: Un Paso hacia la Privacidad en la Era de la Inteligencia Artificial
Los usuarios de Internet pueden bloquear GPTBot y mantener su sitio fuera de ChatGPT.
En un reciente anuncio, OpenAI ha introducido una nueva funcionalidad que permitirá a los operadores de sitios web bloquear su rastreador web GPTBot para que no recopile datos de sus páginas, una decisión que plantea preguntas importantes sobre la privacidad y la ética en la era de la inteligencia artificial.
La compañía con sede en San Francisco informó que los operadores de sitios web ahora tienen la capacidad de excluir específicamente al rastreador GPTBot de sus archivos Robots.txt o bloquear su dirección IP.
Las páginas web rastreadas con el agente de usuario GPTBot pueden potencialmente ser utilizadas para mejorar los modelos futuros y se filtran para eliminar fuentes que requieran acceso mediante pago, que recopilen información de identificación personal (PII) o que contengan texto que viole nuestras políticas. Permitir que GPTBot acceda a su sitio puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades generales y su seguridad.
Blog Open AI.
Este bloqueo del GPTBot podría ser el primer paso hacia OpenAI permitiendo a los usuarios de internet optar por no permitir que sus datos sean utilizados para entrenar sus grandes modelos de lenguaje. Esto sigue a algunos intentos iniciales de crear una etiqueta que excluya el contenido del entrenamiento, como la etiqueta «NoAI» concebida por DeviantArt el año pasado. Sin embargo, esta medida no elimina de manera retrospectiva el contenido previamente recopilado de un sitio del conjunto de datos de entrenamiento de ChatGPT.
Gran parte de los datos de entrenamiento para los grandes modelos de lenguaje, como los modelos GPT de OpenAI y Bard de Google, proviene de internet. Sin embargo, OpenAI no confirma si obtuvo sus datos a través de publicaciones en redes sociales, trabajos con derechos de autor o qué partes de la red recopiló para obtener información.
La obtención de datos para el entrenamiento de la IA se ha vuelto cada vez más controvertida. Sitios como Reddit y Twitter han buscado restringir el uso gratuito de las publicaciones de sus usuarios por parte de empresas de IA, mientras que autores y otros creadores han presentado demandas por el presunto uso no autorizado de sus obras. Los legisladores también han abordado cuestiones de privacidad de datos y consentimiento en varias audiencias del Senado sobre la regulación de la IA el mes pasado.
Según lo informado por Axios, empresas como Adobe han planteado la idea de marcar los datos como no aptos para el entrenamiento a través de una ley contra la suplantación de identidad. Empresas de IA, incluida OpenAI, firmaron un acuerdo con la Casa Blanca para desarrollar un sistema de marca de agua que indique si algo fue generado por la IA, pero no hicieron promesas de dejar de usar datos de internet para el entrenamiento.
En un momento en que la intersección entre la tecnología y la ética es cada vez más crucial, la decisión de OpenAI de permitir el bloqueo de su rastreador web GPTBot plantea importantes cuestionamientos sobre el equilibrio entre la innovación tecnológica y la protección de la privacidad de los usuarios en el mundo digital en constante evolución.
Fuente: The Verge.