Las matemáticas son el punto débil de muchas personas, que sufrieron en su infancia durante la época de colegio. Una situación que hasta el mismo ChatGPT vive. El chatbot de OpenAI es capaz de generar textos, mantener conversaciones, componer poesías o analizar imágenes, pero todavía tiene una debilidad con la resolución de problemas matemáticos.
Este problema se extiende a otras ramas de este sector, como la aritmética y la geometría, y radica principalmente en el uso de lenguaje natural para pedirle una situación, ya que si ingresamos una operación simple a través de números, sus resultados serán similares a los de una calculadora. Pero todo cambia si lo hacemos con lenguaje natural.
Por qué ChatGPT tiene limitaciones con las matemáticas
Aunque la computación ha sido históricamente utilizada para resolver problemas matemáticos complejos, la situación con modelos de lenguaje como ChatGPT es distinta. A primera vista, este chatbot parece manejar bien los cálculos sencillos si se formulan en términos numéricos. Pero si el problema se presenta en lenguaje natural, los resultados son erráticos. Esto es especialmente notable en problemas más complejos, donde la IA falla estrepitosamente.
Uno de los factores que explican esta incapacidad es el proceso de tokenización, una técnica utilizada por los modelos de IA para dividir el texto en partes más pequeñas o “tokens”. Este proceso funciona bien para palabras, donde los tokens pueden representar sílabas o fragmentos de palabras, pero se vuelve problemático al enfrentarse a números.
Por ejemplo, un número como “380″ puede ser interpretado por el modelo como un solo token, mientras que “381″ podría ser dividido en dos partes, “38″ y “1″. Esta falta de consistencia hace que los modelos pierdan las relaciones matemáticas entre los dígitos, lo que genera errores en los cálculos.
Sin embargo, la tokenización no es el único problema. ChatGPT y otras IA son, esencialmente, máquinas estadísticas que se entrenan para detectar patrones en grandes cantidades de datos. Esto significa que, cuando el chatbot se enfrenta a un problema matemático, no está realizando los cálculos de la manera en que lo haría una calculadora, sino que está intentando predecir la respuesta basándose en ejemplos que ha visto durante su entrenamiento.
Esto puede generar aciertos parciales, pero también errores graves, especialmente en problemas que involucran múltiples pasos intermedios, como en la multiplicación de números grandes.
Un estudio realizado por Yuntian Deng, profesor de la Universidad de Waterloo, mostró que ChatGPT, en su modelo GPT-4o, tiene una tasa de precisión inferior al 30% al resolver problemas de multiplicación con más de cuatro dígitos. Esto se debe a que cualquier error en un paso intermedio puede afectar drásticamente el resultado final.
Según Deng, esta es una de las principales razones por las cuales los modelos de lenguaje fallan en las matemáticas: no siguen el mismo enfoque secuencial que usamos los humanos para resolver problemas.
Qué tipo de errores suele cometer ChatGPT en matemáticas
Un ejemplo práctico de esta limitación fue expuesto por el profesor Paul T. von Hippel, de la Universidad de Texas en Austin, en un artículo publicado en The Wall Street Journal. Von Hippel utilizó a ChatGPT para resolver un problema matemático relacionado con el teorema de Pitágoras. Aunque el chatbot pudo definir el teorema y ofrecer ejemplos, cometió errores simples en los cálculos al elevar un número al cuadrado, algo que cualquier calculadora básica puede hacer sin problemas.
Este tipo de error es recurrente. Un ejemplo concreto involucró un problema aparentemente sencillo: “Una caja contiene 6 bananas y 2 kilos de manzanas. Si cada manzana pesa 200 gramos, ¿cuántas frutas hay dentro de la caja?” Cuando se le planteó esta pregunta a ChatGPT, la respuesta fue incorrecta.
El chatbot calculó correctamente que 2 kilos de manzanas equivalían a 2.000 gramos, pero no dividió esta cantidad entre los 200 gramos que pesa cada manzana para determinar el número total de frutas. En su lugar, se enfocó en sumar los pesos y concluyó que había 2,6 kilos de frutas, asumiendo incorrectamente el peso de las bananas. La respuesta correcta debería haber sido 16 frutas: 6 bananas y 10 manzanas.
Este tipo de errores se debe, en parte, a la incapacidad de ChatGPT para comprender plenamente el lenguaje natural cuando se refiere a problemas matemáticos. La IA no siempre logra interpretar correctamente lo que se le pide, lo que afecta su rendimiento en situaciones que requieren razonamiento matemático. Solo cuando se le especificó de manera clara que debía determinar el número de unidades de fruta en la caja, ChatGPT pudo resolver el problema correctamente.
A pesar de las limitaciones actuales, hay esperanza de que los modelos de IA puedan mejorar en el futuro en cuanto a sus capacidades matemáticas. Modelos más recientes, como el o1 de OpenAI, han mostrado mejoras significativas al abordar problemas matemáticos de manera más lógica y secuencial.
En lugar de simplemente predecir la respuesta basándose en patrones, estos modelos razonan paso a paso, lo que aumenta la probabilidad de llegar a la solución correcta. Deng y otros investigadores creen que, con el tiempo, los problemas matemáticos, especialmente aquellos relacionados con multiplicación y aritmética compleja, podrían resolverse por completo.