Autor: Raffacle Huang / THE WALL STREET JOURNAL
Silicon Valley delira con un modelo de inteligencia artificial fabricado en China
Silicon Valley delira con un modelo de inteligencia artificial fabricado en China DeepSeek es calificado de "asombroso e impresionante", a pesar de trabajar con chips menos avanzados con chips menos avanzados Raffaele Huang / THE WALL STREET JOURNAL INGAPUR Una empresa china de inteligencia artificial ha maravillado a Silicon Valley al ver cómo sus programadores casi igualan a sus rivales estadounidenses a pesar de utilizar chips inferiores.
Los modelos de inteligencia artificial (IA) de la empresa china DeepSeek se han situado entre los 10 mejores del mundo en rendimiento, según una popular clasificación, lo que sugiere que las restricciones a la exportación impuestas por Washington están teniendo dificultades para bloquear los rápidos avances de China.
El 20 de enero, DeepSeek presentó el R1, un modelo especializado diseñado para resolver problemas complejos. "Deepseek R1 es uno de los avances más sorprendentes e impresionantes que he visto nunca", comentó Marc Andreessen, el capitalista de riesgo de Silicon Valley que ha estado asesorando al presidente Trump, en un post en X el viernes.
Los avances de DeepSeek provocaron una venta masiva de acciones de chipsa prime ra hora del lunes, ante la preocupación de que el enorme gasto de los gigantes tecnológicos estadounidenses en semiconductores de vanguardia y otras infraestructuras de lA estuviera justificado. Los futuros del índice tecnológico Nasdaq-100 bajaron un 4%, y Nvidia cayó más de un 10% antes de la apertura del mercado. El desarrollo de DeepSeek fue dirigido por Liang Wenfeng, gestor chino de fondos de cobertura, que se ha convertido en el rostro del impulso de la 1A en el país. El 20 de enero, Liang se reunió con el primer ministro chino y habló de cómo las empresas chinas podrían reducirla distancia con Estados Unidos. Los especialistas afirman que la tecnología de DeepSeek sigue estando por detrás de la de OpenAl y Google. Pero es un rival de la de OpenAl y Google. Pero es un rival cercano a pesar de utilizar menos chips y menos avanzados, y en algunos casos saltarse pasos que los desarrolladores estadounidenses consideraban esenciales.
DeepSeek declaró que el entrenamiento de uno de sus últimos modelos costó US$5,6 millones, frente al rango de entre US$100 millones y US$1.000 millones citada el año pasado por Dario Amodei, director ejecu tivo de la empresa de desarrollo de lA Anthbra ropic, como costo de construcción de un modelo.
Barrett Woodside, cofundador de la empresa de hardware de IA Positron, de San Francisco, afirma que él y sus colegas están entusiasmados con DeepSeek. "Es muy genial", asegura Woodside, refiriéndose a los modelos de código abierto de DeepSeek, en los que el código del software en el que se basa el modelo de lA es gratuito. Los usuarios del último modelo insignia de DeepSeek, llamado V3 y lanzado en diciembre, han observado que se niega a responder a preguntas políticas delicadas sobre China y el líder Xi Jinping.
En algunos casos, el producto da respuestas en línea con la propaganda oficial de Beijing en lugar de SIGUE ». Silicon Valley delira con un modelo de inteligencia artificial fabricado en China SIGUE » incluir la perspectiva de los críticos con el gobierno, como hace ChatGPT. "La única crítica que se le puede hacer es una censura a medias de la República Popular China", afirma Woodside, refiriéndosea la República Popular China, pero asegura que esto podría eliminarse porque otros desarrolladores pueden modificar libremente el código. Según DeepSeek, tanto el R1 como el V3 obtuvieron mejores resultados que los principales modelos occidentales o se acercaron a ellos. El sábado, los dos modelos estaban entre los 10 primerosen Chatbot Arena, una plataforma de investigadores de la Universidad de California en Berkeley que evalúa el rendimiento de los chatbot. El modelo Gemini de Google ocupaba el primer puesto, mientras que DeepSeek superaba a Claude, de Anthropic, y a Grok, de xAl, de Elon Musk.
DeepSeek surgió de la unidad de investigación de IA de High-Flyer, un gestor de fondos de cobertura con US$8.000 millones en activos, conocido por aprovechar la IA para operar. "Cuando los humanos toman decisiones de inversión, es un arte, y lo hacen por puro capricho. Cuando los programas informáticos toman esas decisiones, es una ciencia, y tiene la solución óptima", comentó Liang en un discurso pronunciado en 2019. Nacido en 1985, Liang creció en la provincia de Guangdong, en el sureste de China. Estudió en la prestigiosa Universidad china de Zhejiang y se especializó en visión artificial. Pocos años después de graduarse, Liang fundó High-Flyer con dos amigos de la universidad en 2015. Liang prefiere que piensen en él como un ingeniero más que como un comerciante, según personas cercanas. Su High-Flyer fue pionera en China en aplicar el aprendizaje profundo al trading informatizado. Esta técnica, inspirada en el cerebro humano, permite a los computadores analizar tipos de datos más diversos. Aunque el modelo insignia de DeepSeek es gratuito, la empresa cobra a los usuarios que conectan sus propias aplicaciones al modelo y la infraestructura informática de DeepSeek. Un ejemplo es una empresa que quiera aprovechar la tecnología para dar respuestas de IA a las consultas de sus clientes. Aprincipios del año pasado, DeepSeek redujo sus precios por este servicio a una fracción de lo que cobraban otros proveedores, lo que provocó una batalla de precios en el sector en China. Anthony Poo, cofundador de una startup con sede en Silicon Valley que utiliza IA generativa para predecir rentabilidades financieras, comentó que su empresa se pasó a DeepSeek desde el modelo Claude de Anthropic en septiembre. Las pruebas demostraron que DeepSeek ofrecía un rendimiento similar por una cuarta parte del costo. "El modelo de OpenAl es el mejor enrendimiento, pero tampoco queremos pagar por capacidades que no necesitamos", afirma Poo.
En su reunión del 20 de enero, Liang de DeepSeek le dijo al primer ministro chino Li Qiang que, si bien las empresas chinas estaban trabajando para ponerse al día, las restricciones estadounidenses a la exportación de chips avanzados a China seguían siendo un estancamiento, según personas relacionadas con la reunión. En 2019, High-Flyer comenzó a construir un clúster de chips para la investigación de 1A, en parte con fondos generados por su negocio financiero. La compañía ha dicho que más tarde construyó un clúster más grande de alrededor de 10.000 unidades de procesamiento de gráficos Nvidia que se pueden utilizar para entrenar grandes modelos de lenguaje. A finales de 2022, cuando OpenAl lanzó ChatGPT, solo un puñado de empresas chinas contaban con infraestructuras informáticas lo bastante potentes como para desarrollar este tipo de modelos. DeepSeek comentó en un informe técnico que utilizó un clúster de más de 2.000 chips Nvidia para entrenar su modelo V3, en comparación con decenas de miles de chips para entrenar modelos de tamaño similar. Algunos especialistas estadounidensesen IA han cuestionado recientemente si High-Flyer y DeepSeek están accediendoa una potencia de cálculo superior a la que han anunciado. Algunos investigadores externos afirmaron que el modelo de DeepSeek carece de ciertas capacidades de sus rivales, más costosamente entrenados, como, por ejemplo, seguir el contexto de conversaciones largas. Para su último modelo de razonamiento, publicado el 20 de enero, DeepSeek omitió un proceso conocido como ajuste supervisado, en el que los programadores introducen los conocimientos de expertos humanos para dar ventaja al modelo.
DeepSeek afirmó que su modelo, diseñado para resolver complicados problemas matemáticos y retos similares, era comparable al modelo de razonamiento 01 de OpenAl a pesar de omitir el ajuste supervisado y centrarse en el aprendizaje por refuerzo, es decir, en el ensayo y error dirigidos. Jim Fan, investigador científico sénior de Nvidia, calificó de gran avance el artículo de DeepSeek en el que se informaba de los resultados.
Dijo en X que le recordaba a anteriores programas pioneros de IA que dominaban juegos de mesa como el ajedrez "desde cero, sin imitar primero a los grandes maestros humanos". Zack Kass, antiguo ejecutivo de OpenAl, comentó que los avances de DeepSeek a pesar de las restricciones estadounidenses "subrayan una lección más amplia: Las limitaciones de recursos a menudo alimentan la creatividad". WSJ WSJ Traducido del idioma original por PULSO. por PULSO..