Un poderoso IA en una GPU simple: la RTX 3090 desafía a las costosas soluciones de servidor

Un poderoso IA en una GPU simple: la RTX 3090 desafía a las costosas soluciones de servidor

Backprop demuestra: no todo lo nuevo es mejor.

image

La startup estonia Backprop , especializada en servicios de GPU en la nube, ha llevado a cabo un estudio inesperado. La empresa descubrió que no es necesario utilizar costosos procesadores gráficos de servidor para manejar grandes modelos de lenguaje (LLM). Resulta que una tarjeta gráfica de consumo, como la NVIDIA RTX 3090, que este año cumple 4 años, puede realizar esta tarea de manera eficaz.

Los especialistas de Backprop demostraron cómo una sola tarjeta puede procesar más de 100 solicitudes simultáneas al modelo Llama 3.1 8B con precisión FP16, manteniendo al mismo tiempo una eficiencia aceptable. Dado que solo una pequeña parte de las personas hace solicitudes al mismo tiempo, la empresa afirma que una RTX 3090 es capaz de atender a miles de usuarios finales.

La RTX 3090, lanzada a finales de 2020, cuenta con impresionantes características para trabajar con LLM. Ofrece 142 teraflops de rendimiento en FP16 y proporciona un ancho de banda de memoria de 936 GB/s.

Kristo Ojasaar, cofundador de Backprop, señaló que para obtener un rendimiento equivalente en teraflops con equipos de servidores, se necesitarían herramientas significativamente más costosas. Sin embargo, la RTX 3090 tiene una limitación: su memoria de 24 GB GDDR6x, que no permite ejecutar modelos más grandes como Llama 3 70B o Mistral Large, incluso con cuantización a 4 u 8 bits.

Las pruebas se realizaron utilizando el popular framework vLLM, ampliamente utilizado para ejecutar LLM en múltiples GPU. En un benchmark que simulaba 100 usuarios simultáneos, la tarjeta pudo gestionar el modelo a una velocidad de 12,88 tokens por segundo para cada computadora. Esto es más rápido que la velocidad promedio de lectura de un ser humano (alrededor de cinco palabras por segundo) y supera la velocidad mínima aceptable de generación para chatbots de IA (10 tokens por segundo).

Es importante destacar que las pruebas de Backprop se llevaron a cabo con solicitudes relativamente cortas y una salida máxima de solo 100 tokens. Esto significa que los resultados son más representativos del rendimiento que se esperaría de un chatbot de servicio al cliente que de una aplicación para resumir textos.

En pruebas adicionales, utilizando la opción --use_long_context en el conjunto de benchmarks de vLLM y con solicitudes de 200 a 300 tokens, la RTX 3090 aún lograba una velocidad de generación aceptable de alrededor de 11 tokens por segundo.

El estudio de Backprop destaca la importancia de analizar el rendimiento y seleccionar los recursos adecuados para cada tarea específica. Ojasaar subraya que las estrategias de marketing de los grandes proveedores de nube a menudo crean la impresión de que para escalar es necesario recurrir a servicios gestionados o invertir en tecnologías específicas, pero esto, como se ha demostrado, no siempre es cierto.

Para los usuarios que necesitan escalar a modelos más grandes, mayor ancho de banda o tamaños de lote, Backprop planea desplegar tarjetas A100 PCIe con 40 GB de memoria HBM2e. Aunque tampoco son las más recientes, la posibilidad de utilizar la tecnología multi-instance-GPU para dividir un acelerador en varios dispositivos virtuales ofrece una oportunidad para reducir aún más los costos para entusiastas y experimentadores.

Si te interesa cómo tu antigua tarjeta gráfica de juegos podría manejar una prueba similar, puedes encontrar el benchmark vLLM de Backprop en acceso abierto y realizar tu propia investigación.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!