Autor: Belle Lin / THE WALL STREET JOURNAL
Cómo se comparala lA de DeepSeek al modelo de OpenAl
Cómo se comparala lA de DeepSeek al modelo de OpenAl AIR1, el modelo de [A de la startup china, se enfrenta a las capacidades de OpenAl. Pero también son muy diferentes. Belle Lin / THE WALL STREET JOURNAL s imposible analizar el nuevo modelo de inteligencia artificial de la empresa china DeepSeek sin compararlo con OpenAl, su principal rival estadounidense.
DeepSeek ha anunciado que su último modelo de 1A, R1, es especialmente bueno en la resolución de problemas, con un rendimiento similar al modelo de razonamiento o1 de OpenAl, pero a una fracción del coste por uso. Una aplicación de DeepSeek encabeza actualmente la clasificación de descargas de iPhone en Estados Unidos. Pero al igual que DeepSeek y OpenAl son empresas muy diferentes, R1 y 01 son también tecnologías diferentes. He aquí cinco similitudes y diferencias entre ambas tec nologías. News Corp, propietaria del Wall Street Journal, tiene un acuerdo de licencia de contenidos con OpenAl.
Cómo funciona DeepSeek DeepSeek redujo el procesamiento de da tos necesario para entrenar modelos, uti lizando sus propias invenciones, así como técnicas adoptadas por empresas chinas de IA con limitaciones similares, según infor mó anteriormente The Wall Street Journal.
Además de reducir el procesamiento de datos -lo que supone un enorme ahorro de tiempo y costes informáticosDeepSeek utiliza una técnica llamada "mezcla de ex pertos". DeepSeek y algunos otros desarro lladores de IA hacen algo parecido a delegar preguntas en expertos en campos específicos.
Cada experto necesita menos formación, lo que alivia la demanda de chips para hacerlo todo a la vez. "Las técnicas que han implementado no son nuevas, pero aplicarlas a la escala que lo han hecho, con la convicción que tenían, es novedoso", afirma Luke Arrigoni, director general de Loti Al, una plataforma de privacidad en Internet basada en lA. El planteamiento de la empresa china requiere menos tiempo y energía antes de plantear una pregunta al modelo de IA, pero utiliza más tiempo y energía para res ponder.
Según Lin Qiao, director general y cofundador de la empresa Fireworks Al, el modelo muestra cómo ha llegado a la respuesta mediante un razonamiento de "cadena de pensamiento", una técnica en la que la tecnología mejora en una tarea com SIGUE ». Cómo se comparala lA de DeepSeek al modelo de OpenAl SIGUE » pleja paso a paso. El modelo 01 de OpenAl utiliza el razonamiento en cadena, pero no muestra a los usuarios lo que ocurre entre bastidores, explica Qiao. Yendo un paso más allá, el razonamiento que produce el modelo de DeepSeek puede utilizarse para entrenar un modelo de IA más pequeño, añadió. Tanto 01 como R1 de DeepSeek son capaces de realizar lo que se consideran tareas de "razonamiento", como redactar un plan de negocios o crear un crucigrama. Rendimiento Los investigadores de DeepSeek afirman que probaron R1 contra algunos de los mejores modelos de lA de OpenAl y descubrieron que era muy competitivo. Las evaluaciones incluyeron una desarrollada por OpenAl en la que se realizaban tareas de programación informática que un modelo de IA debe completar por sí solo, como parchear un error de software. R1 rindió a la par que 01 de OpenAl y superó a un modelo anterior llamado o1mini. Qiao afirma que los miembros de la comunidad de código abierto ya han creado una versión mucho más pequeña de R1, que puede utilizarse en teléfonos móviles y tabletas.
Algunos usuarios afirman que las capacidades de escritura y resolución de problemas de R1 son impresionantes, pero señalan que el modelo obtuvo peores resultados que rivales como 01 de OpenAl en tipos específicos de resolución de problemas. El director ejecutivo de OpenAl, Sam Altman, calificó el lunes a R1 de "modelo impresionante, sobre todo por lo que es capaz de ofrecer por su precio", en un post en X. También dijo que era estimulante tener un nuevo competidor y que su empresa adelantaría el lanzamiento de algunos de sus productos. Costo DeepSeek afirma haber logrado resultados similares a los de OpenAl a un coste inferior y sin chips de alto rendimiento.
Según algunas estimaciones, DeepSeek sólo necesitó chips por valor de unos US$5 millones para entrenar uno de sus primeros modelos, pero eso no tiene en cuenta el coste de la investigación y la experimentación para su desarrollo, sostuvo Stacy Rasgon, analista de Bernstein Research, enuna nota deinvestigación. No está claro cuánta potencia de cálculo utilizó DeepSeek para el modelo R1 más avanzado. En cambio, OpenAl ha declarado que el entrenamiento de su modelo GPT4 costó más de US$100 millones, y seespera que los futuros modelos de IA superen los US$1.000 millones. Para el próximo modelo de OpenAl, llamado GPT. 5, un entrenamiento de seis meses puede costar alrededor de US$500 millones sólo en costos informáticos, según estimaciones públicas y privadas. Privacidad y seguridad Los usuarios del último modelo insignia de DeepSeek, llamado V3, han observado que se niega a responder a preguntas políticas delicadas sobre China y su líder Xi Jinping. En algunos casos, el producto responde en línea con la propaganda de Beijing en lugar de incluir la perspectiva de los críticos con el gobierno, como hace ChatGPT. Aun así, R1 se puede descargar y utilizar libremente, por lo que algunos usuarios se sienten más cómodos utilizándolo en sus propios servidores o en los alojados por empresas estadounidenses. La empresa de IA Liner está dispuesta a utilizar R1 de DeepSeek, según su director ejecutivo, Luke Kim, porque es de código abierto y resulta fácil cambiar los modelos de IA. En comparación, OpenAl ha afirmado que cuenta con un "nuevo enfoque de formación en seguridad" que obliga a su modelo 01 a cumplir las directrices de la empresa. OpenAl afirma que su objetivo es evitar el "jailbreaking" de los modelos de IA, y ha firmado acuerdos formales con los institutos de seguridad de IA de EE.UU. y el Reino Unido. El "jailbreaking" de los modelos de IA implica manipularlos o intentar eludir sus controles de seguridad. Código abierto frente a propietario DeepSeek ha publicado los "pesos" o parámetros numéricos de su modelo R1 para que el público pueda utilizarlos, descargarlos y modificarlos libremente.
Pero no ha divulgado los datos de entrenamiento que lo sustentan, lo que ha llevado a algunos a decir que el modelo no es totalmente de "código abierto". La empresa china ha publicado un informe en el que detalla cómo ha entrenado su modelo y que, según los expertos en lA, ayuda alos desarrolladores a descifrar cómo DeepSeek ha logrado su innovación. La publicación de los pesos de los modelos también significa que los desarrolladores pueden descargarlos para utilizarlos. Hugging Face, que gestiona una plataforma de código abierto para compartirmodelos, declaró que los modelos R1 creados por su comunidad se habían descargado 3,2 millones de veces. A diferencia de DeepSeek, el modelo ol de OpenAl es propietario, lo que significa que los consumidores y las empresas pagan a la compañía por utilizar sa modelo y sus servicios. Mientras que algunas empresas prefieren utilizar tecnologías patentadas -porque son examinadas por sus creadores eincorporan controles de ciberseguridad-, otras prefieren las de código abierto porque son más fáciles de personalizar y colar. lizar y colar. Traducido del idioma original por PULSO. por PULSO..