¿Qué tan buena es la inteligencia artificial para generar nuevas ideas?
Durante mucho tiempo, se ha sostenido que la inteligencia artificial (IA) no es muy buena para generar nuevas ideas.
La identificación de oportunidades para nuevos emprendimientos, la creación de soluciones para necesidades no satisfechas o la elección de un nombre para una nueva empresa son tareas no estructuradas que parecen inadecuadas para los algoritmos. Sin embargo, los avances recientes en la IA, y específicamente la llegada de modelos de lenguaje de gran tamaño como ChatGPT, están desafiando estas suposiciones.
Durante años, hemos enseñado innovación, emprendimiento y diseño de productos en la Wharton School. Para la primera tarea en nuestros cursos de innovación, pedimos a los estudiantes que generen una docena de ideas para un nuevo producto o servicio. Como resultado, hemos escuchado varios miles de ideas de nuevos emprendimientos presentadas por estudiantes universitarios, estudiantes de MBA y ejecutivos experimentados. Algunas de estas ideas son asombrosas, otras son terribles y, como era de esperar, la mayoría se encuentra en algún punto intermedio.
La biblioteca de ideas que hemos acumulado nos permitió establecer una competencia sencilla para determinar quién es mejor generando ideas innovadoras: ¿el ser humano o la máquina?
En esta competencia, que llevamos a cabo junto con nuestros colegas Lennart Meincke y Karan Girotra, la humanidad estuvo representada por un conjunto de 200 ideas seleccionadas al azar de nuestros estudiantes de Wharton. Las máquinas estuvieron representadas por ChatGPT4, al que instruimos para generar 100 ideas con instrucciones idénticas a las dadas a los estudiantes:
«Genera una idea para un nuevo producto o servicio que atraiga a estudiantes universitarios y que pueda estar disponible por USD 50 o menos».
Además de esta solicitud básica, también le pedimos a ChatGPT que generara otras 100 ideas después de proporcionar algunos ejemplos de ideas exitosas de cursos anteriores (es decir, un grupo GPT entrenado), lo que nos dio una muestra total de 400 ideas.
Ideas como cestas plegables para la ropa, kits de cocina para dormitorios universitarios, cojines ergonómicos para asientos incómodos en las aulas y cientos más surgieron milagrosamente de una computadora portátil.
Cómo comparar
La literatura académica sobre ideación postula tres dimensiones del rendimiento creativo: la cantidad de ideas, la calidad promedio de las ideas y el número de ideas verdaderamente excepcionales.
En primer lugar, en cuanto a la cantidad de ideas por unidad de tiempo: no sorprendentemente, ChatGPT supera fácilmente a los humanos en esa dimensión. Generar 200 ideas de la manera tradicional requiere días de trabajo humano, mientras que ChatGPT puede generar 200 ideas con aproximadamente una hora de supervisión.
Luego, para evaluar la calidad de las ideas, las sometimos a pruebas de mercado. Específicamente, tomamos cada una de las 400 ideas y las presentamos ante un panel de encuestados en el mercado objetivo a través de una encuesta en línea sobre la intención de compra. La pregunta que hicimos fue:
«¿Qué tan probable sería que compre en función de este concepto si estuviera disponible para usted?»
Las posibles respuestas iban desde definitivamente no compraría hasta definitivamente compraría.
Las respuestas se pueden traducir en una probabilidad de compra utilizando técnicas simples de investigación de mercado. La probabilidad de compra promedio de una idea generada por un humano fue del 40%, la de GPT-4 fue del 47% y la de GPT-4 alimentado con buenas ideas fue del 49%. En resumen, ChatGPT no solo es más rápido, sino que también es en promedio mejor en la generación de ideas.
Sin embargo, cuando se buscan ideas excepcionales, las medias pueden ser engañosas. En innovación, son las ideas excepcionales las que importan: la mayoría de los gerentes preferirían una idea brillante y nueve ideas que sean fracasos en lugar de 10 ideas decentes, incluso si la calidad promedio de la última opción pudiera ser más alta. Para capturar esta perspectiva, investigamos solo el subconjunto de las mejores ideas en nuestro grupo, específicamente el 10% superior. De estas 40 ideas, cinco fueron generadas por estudiantes y 35 fueron creadas por ChatGPT (15 del conjunto de ChatGPT vanilla y 20 del conjunto de ChatGPT preentrenado). Una vez más, ChatGPT salió victorioso.
Lo que significa
Creemos que la victoria de la máquina, con 35 ideas excepcionales frente a 5 generadas por humanos (sin mencionar los costos de producción dramáticamente más bajos), tiene importantes implicaciones para cómo entendemos la creatividad e innovación.
En primer lugar, la IA generativa ha traído una nueva fuente de ideas al mundo. No utilizar esta fuente sería un pecado. No importa si estás trabajando en una presentación para tu competencia local de planes de negocios o si estás buscando una cura para el cáncer; cada innovador debería desarrollar el hábito de complementar sus propias ideas con las creadas por la tecnología. La ideación siempre tendrá un elemento de aleatoriedad, y por lo tanto, no podemos garantizar que tu idea obtendrá una A+, pero ya no hay excusa si obtienes una C.
En segundo lugar, el cuello de botella para las primeras etapas del proceso de innovación en las organizaciones ahora se desplaza de la generación de ideas a la evaluación de ideas. Usando un modelo de lenguaje grande, un innovador puede producir una hoja de cálculo que articule cientos de ideas, que probablemente incluyan algunas superestrellas. Esta abundancia exige entonces un mecanismo efectivo de selección para encontrar las agujas en el pajar.
Hasta la fecha, estos modelos parecen no ser mejores que ningún experto individual en su capacidad para predecir la viabilidad comercial. El uso de una muestra de una docena o más de evalu
aciones independientes de posibles clientes en el mercado objetivo, un enfoque de sabiduría de las multitudes, sigue siendo la mejor estrategia. Afortunadamente, la evaluación de ideas mediante una encuesta de intención de compra de clientes en el mercado objetivo es relativamente rápida y económica.
Finalmente, en lugar de pensar en una competencia entre humanos y máquinas, deberíamos encontrar una forma en que los dos trabajen juntos. Este enfoque en el que la IA asume el papel de copiloto ya ha surgido en el desarrollo de software. Por ejemplo, nuestro innovador humano (piloto) podría identificar un problema abierto. La AI (copiloto) podría informar entonces lo que se sabe sobre el problema, seguido de un esfuerzo en el que el humano y la IA exploren de manera independiente posibles soluciones, garantizando virtualmente una consideración exhaustiva de las oportunidades.
El tomador de decisiones humano probablemente sea en última instancia responsable del resultado, por lo que probablemente tomará las decisiones de selección e informado por la investigación de mercado y posiblemente por la opinión del copiloto AI. Predecimos que tal colaboración humano-máquina entregará mejores productos y servicios al mercado y soluciones mejoradas para lo que la sociedad necesite en el futuro.
Fuente: WJS.