Para los gigantes de la IA, lo más pequeño es a veces mejor
Para los gigantes de la IA, lo más pequeño es a veces mejor generativa, y rápidamente se dio cuenta de que operarla se estaba volviendo más caro que lo que la compañía había previsto en un principio, dijo Mehdi. La compañía hace poco también lanzó laptops con IA que utilizan docenas de modelos de IA para búsqueda y generación de imágenes. Los modelos requieren tan pocos datos que se pueden hacer funcionar en un dispositivo y no necesitan acceso a enormes supercomputadoras basadas en la nube como lo hace ChatGPT. Google --así como las empresas emergentes de IA Mistral, Anthropic y Cohere-también ha lanzado modelos más pequeños este año.
Apple dio a conocer su propia hoja de ruta de IA en junio con planes de emplear modelos pequeños de modo que pueda hacer funcionar el software totalmente en teléfonos para que sea más rápido y más seguro. Incluso OpenAI, la que ha estado a la vanguardia del movimiento de modelos grandes, hace poco lanzó una versión de su modelo emblemático que, asegura, es más barato de operar. Una vocera señaló que la compañía está abierta a lanzar modelos más pequeños en el futuro.
Para muchas tareas, como resumir documentos o generar El inicio de la carrera armamentista de inteligencia artificial (IA) tuvo que ver con hacerlo a lo grande: modelos gigantescos capacitados con cerros de datos, intentando imitar la inteligencia a nivel humano. Ahora, los gigantes tecnológicos y las empresas emergentes están pensando en algo más pequeño a medida que reducen el software de IA para que sea más barato, más rápido y más especializado. Esta categoría de software de IA --llamada modelos pequeños o medianos de lenguaje-se capacita con menos datos y a menudo está diseñada para tareas específicas. Los modelos más grandes, como GPT-4 de OpenAI, cuestan más de US$ 100 millones desarrollarlos y utilizan más de un billón de parámetros, una medida de su tamaño.
Los modelos más pequeños a menudo se capacitan con conjuntos de datos más acotados --por ejemplo, solo con temas legales-y pueden costar menos de US$ 10 millones capacitarlos, utilizando menos de 10 mil millones de parámetros. Los modelos más pequeños también utilizan menos potencia computacional, y por lo tanto cuestan menos, para responder a cada pregunta.
Microsoft ha resaltado su familia de modelos pequeños llamados Phi, los que, según el director ejecutivo Satya Nadella, son una centésima parte del tamaño del modelo gratuito detrás de ChatGPT de OpenAI y desempeñan muchas tareas casi igual de bien. "Creemos cada vez más que va a ser un mundo de modelos diferentes", manifestó Yusuf Mehdi, director comercial de Microsoft.
Microsoft fue una de las primeras grandes compañías tecnológicas que apostó miles de millones de dólares por la IA imágenes, los modelos grandes pueden ser excesivos; el equivalente de conducir un tanque para ir a retirar comestibles. "No se deberían necesitar trillones de operaciones para calcular 2 + 2", manifestó Illia Polosukhin, quien actualmente trabaja en tecnología blockchain y fue uno de los autores de un artículo primordial de Google en 2017 que sentó las bases para el actual auge de la IA generativa.
Las empresas y los consumidores también han estado buscando formas de manejar la tecnología basada en IA generativa de un modo más econ ó m i c o c u a n d o sus retornos aún no son claros.
D e b i d o a q u e utilizan menos potencia computacional, los modelos pequeños pueden responder preguntas por apenas una sexta parte del costo de los modelos grandes de lenguaje en muchos casos, indicó Yoav Shoham, cofundador de AI21 Labs, una compañía de IA con sede en Tel Aviv. "Si está produciendo cientos de miles o millones de respuestas, la economía no funciona" para utilizar un modelo grande, precisó Shoham.
La clave es enfocar estos modelos más pequeños en un conjunto de datos como comunicaciones internas, documentos legales o cifras de ventas para realizar tareas específicas como escribir correos electrónicos; un proceso que se conoce como ajuste.
Ese proceso permite que los modelos pequeños se desempeñen en forma tan eficaz como un modelo grande en esas tareas a una fracción del costo. "Lograr que estos modelos más pequeños y especializados funcionen en estas áreas más aburridas pero importantes" es la frontera de la IA en estos mom e n t o s, s e ñ a l ó Alex Ratner, cofundador de Snorkel AI, un emprendimiento que ayuda a las empresas a personalizar los modelos de IA. La compañía de clasificación crediticia Experian pasó de modelos grandes a pequeños para los chatbots de IA que utiliza para la asesoría financiera y el servicio de atención al cliente. Una vez que se los capacitó con datos internos de la compañía, los modelos más pequeños funcionaron tan bien como los grandes a una fracción del costo, aseguró Ali Khan, jefe de datos de Experian. Los modelos "se capacitan en un área problemática y un conjunto de tareas bien definidos, en vez de que me den una receta de flan", dijo.
Los modelos más pequeños también son más rápidos, afirmó Clara Shih, jefa de IA de Salesforce. "Termina pagando en exceso y tiene problemas de latencia" con los modelos grandes, observó Shih. "Es excesivo". El movimiento hacia los modelos más pequeños se produce cuando el avance en los modelos grandes que se lanzaron públicamente está aflojando el paso.
Desde que OpenAI lanzó GPT 4 el año pasado, un avance significativo en capacidades en comparación con el modelo anterior GPT 3.5, no se han dado a conocer modelos nuevos que den un salto adelante equivalente. Los investigadores atribuyen esto a factores que incluyen una escasez de nuevos datos de alta calidad para la capacitación.
Esa tendencia ha girado la atención hacia los modelos más pequeños. "Existe este pequeño momento de calma en el que todo el mundo está a la espera", comentó Sébastien Bubeck, el ejecutivo de Microsoft que lidera el proyecto del modelo Phi. "Tiene sentido que su atención se desvíe hacia, `De acuerdo, ¿puede hacer realmente que esta cosa sea más eficiente?'" Si esta calma es temporal o es un problema tecnológico más amplio aún se desconoce. Pero el momento del modelo pequeño confirma la evolución de la IA de una demostración parecida a la ciencia ficción a una realidad menos emocionante de convertirla en un negocio. No obstante, las empresas no están renunciando a los modelos grandes. Apple anunció que estaba incorporando ChatGPT a su asistente Siri para que lleve a cabo tareas más sofisticadas como escribir correos electrónicos. Microsoft señaló que su versión más nueva de Windows integraría el modelo más reciente de OpenAI. Sin embargo, las incorporaciones de OpenAI que hicieron ambas compañías constituyeron una parte menor de todo su paquete de IA. Apple lo mencionó solo durante dos minutos en una presentación de casi dos horas de duración. Berber Jin colaboró con este artículo.
Traducido del inglés por "El Mercurio". Los consumidores buscan formas de manejar la tecnología de un modo más económico: Para los gigantes de la IA, lo más pequeño es a veces mejor TOM DOTAN Y DEEPA SEETHARAMAN The Wall Street Journal Las empresas están centrando su atención en modelos menos potentes, con la esperanza de que los costos más bajos y un rendimiento sólido atraigan a más clientes. El movimiento hacia los modelos más pequeños se produce cuando el avance en los grandes, que se lanzaron públicamente, está aflojando el paso. EMIL LENDOF, ISTOCK CONTENIDO LICENCIADO POR THE WALL STREET JOURNAL COSTO Los modelos más grandes, como GPT-4 de OpenAI, cuestan más de US$ 100 millones desarrollarlos..