Runware utiliza hardware personalizado y orquestación avanzada para una rápida inferencia de IA

Runware uses custom hardware and advanced orchestration for fast AI inference

A veces, una demostración es todo lo que necesita para comprender un producto. Y ese es el caso de Runware. Si visita el sitio web de Runware, ingresa un mensaje y presiona Enter para generar una imagen, se sorprenderá de lo rápido que Runware genera la imagen por usted: toma menos de un segundo.

Runware es un recién llegado al panorama de startups de inferencia de IA, o IA generativa. La empresa está construyendo sus propios servidores y optimizando la capa de software en esos servidores para eliminar cuellos de botella y mejorar las velocidades de inferencia para los modelos de generación de imágenes. La startup ya ha obtenido 3 millones de dólares en financiación de Speedrun de Andreessen Horowitz, Halo II de LakeStar y Lunar Ventures.

La empresa no quiere reinventar la rueda. Sólo quiere hacerlo girar más rápido. Detrás de escena, Runware fabrica sus propios servidores con tantas GPU como sea posible en la misma placa base. Tiene su propio sistema de refrigeración hecho a medida y gestiona sus propios centros de datos.

Cuando se trata de ejecutar modelos de IA en sus servidores, Runware ha optimizado la capa de orquestación con optimizaciones del BIOS y del sistema operativo para mejorar los tiempos de inicio en frío. Ha desarrollado sus propios algoritmos que asignan cargas de trabajo de interferencia.

La demostración es impresionante por sí sola. Ahora, la empresa quiere utilizar todo este trabajo en investigación y desarrollo y convertirlo en un negocio.

A diferencia de muchas empresas de alojamiento de GPU, Runware no alquilará sus GPU en función del tiempo de GPU. En cambio, cree que se debería alentar a las empresas a acelerar las cargas de trabajo. Es por eso que Runware ofrece una API de generación de imágenes con una estructura tradicional de costo por llamada API. Se basa en modelos de IA populares de Flux y Stable Diffusion.

“Si nos fijamos en Together AI, Replicate, Hugging Face, todos ellos, están vendiendo computación basada en el tiempo de GPU”, dijo a TechCrunch el cofundador y director ejecutivo Flaviu Radulescu. “Si comparas la cantidad de tiempo que nos lleva crear una imagen con ellos. Y luego comparas los precios y verás que somos mucho más baratos y mucho más rápidos”.

“Va a ser imposible para ellos igualar este desempeño”, añadió. “Especialmente en un proveedor de nube, hay que ejecutar en un entorno virtualizado, lo que añade retrasos adicionales”.

Mientras Runware analiza todo el proceso de inferencia y optimiza el hardware y el software, la compañía espera poder utilizar GPU de múltiples proveedores en un futuro próximo. Este ha sido un esfuerzo importante para varias empresas emergentes, ya que Nvidia es el líder indiscutible en el espacio de GPU, lo que significa que las GPU de Nvidia tienden a ser bastante caras.

“En este momento, utilizamos sólo GPU de Nvidia. Pero esto debería ser una abstracción de la capa de software”, dijo Radulescu. “Podemos activar y desactivar un modelo desde la memoria de la GPU muy, muy rápido, lo que nos permite colocar varios clientes en las mismas GPU.

“Por eso no somos como nuestros competidores. Simplemente cargan un modelo en la GPU y luego la GPU realiza un tipo de tarea muy específica. En nuestro caso, hemos desarrollado esta solución de software, que nos permite cambiar un modelo en la memoria de la GPU mientras hacemos inferencias”.

Si AMD y otros proveedores de GPU pueden crear capas de compatibilidad que funcionen con cargas de trabajo típicas de IA, Runware está bien posicionado para construir una nube híbrida que dependa de GPU de múltiples proveedores. Y eso sin duda ayudará si quiere seguir siendo más barato que sus competidores en la inferencia de IA.