Tachyum recauda $25 Millones para el procesador universal ‘más rápido que Xeon, más pequeño que ARM’

La empresa emergente Tachyum ha recaudado 25 millones de dólares en una ronda de financiación de la serie A para un nuevo diseño de procesador que llama el procesador universal Prodigy. Prodigy es supuestamente más rápido en código de un solo subproceso que Xeon, con núcleos de CPU más pequeños que ARM. Se puede utilizar para simular redes neuronales del tamaño del cerebro humano en tiempo real. Supera a las CPU, LAS GPU y la TPU de Google. Puede ejecutar 64 núcleos a una frecuencia de núcleo de 4 GHz, se adapta a sólo 290 mm2 de espacio de matriz (la mitad del tamaño del diseño Epyc de 7 nm de AMD en el mismo nodo), admite ocho canales de DDR5, 72 carriles PCIe 5.0, 2 conexiones Ethernet 400G y tiene soporte para HBM3.

Decir que Tachyum no ha demostrado que estas afirmaciones serían un eufemismo. Pretende ser capaz de vencer a Intel o AMD en un solo hilo de rendimiento O ARM en tamaño de troquel y eficiencia de potencia sería elevar las cejas en la mejor de las circunstancias. Afirmar hacer ambas cosas simultáneamente con un chip que aún no has construido requiere mejores pruebas de las que hemos visto hasta ahora para tomar el argumento en serio. La empresa es Reclamando eventualmente va a campo de una CPU con 128 núcleos a 4GHz en un solo socket con 12 controladores DDR5.

Afirmar que se ha resuelto el problema de los “cables lentos” (presumiblemente esto es una referencia al retardo RC) con cables muy cortos no responde realmente a nada en absoluto. Específicamente, no explica nada acerca de cómo el Prodigy logra utilizar estos cables muy cortos en la ruta crítica, por qué es capaz de desplegarlos cuando otra CPU de la competencia diseños no pueden, o lo que Tachyum ha negociado a cambio de longitudes de alambre cortas. Una frecuencia de núcleo completo de 4 GHz en un TDP de 180W plantea preguntas sobre exactamente cuánto trabajo pueden realizar estos chips por ciclo de reloj, especialmente dado que parecen tomar prestadas algunas páginas del enfoque de Itanium para mejorar el rendimiento del hardware, a saber, la idea que la ejecución compleja fuera de orden se puede meter en el compilador y dejar Putrefacción optimización eficiente.

La compañía dio una presentación en Hot Chips el año pasado que es ahora público; hemos reproducido algunas de sus diapositivas en la presentación de diapositivas a continuación.

Tachyum’s Copia PR afirma que Prodigy reduce el TCO del centro de datos en 4 veces “a través de una arquitectura de hardware disruptiva y un compilador inteligente que ha hecho que muchas partes del hardware que se encuentran en un procesador típico sean redundantes. Menos cables y cables más cortos, debido a un núcleo más pequeño y simple, se traduce en una velocidad y eficiencia energética mucho mayores para el procesador.”

Según la sesión de preguntas y respuestas después de Hot Chips, estas CPU pierden el 40 por ciento del rendimiento al ejecutar código x86 nativo, lo que parece un problema importante para todo el argumento “Más rápido que Xeon”. La compañía afirma que “Binary 4.0 GHz emulated todavía supera 2.5 GHz Xeon,” que sería más un problema para Intel (o AMD) si un Xeon de 2.5GHz representa algún tipo de umbral de rendimiento objetivamente difícil. Frases como “Fuera de ejecución en software” es una forma elegante de decir: “Hemos metido todo el trabajo de lograr un alto rendimiento en el compilador, y realmente esperamos que nuestro compilador pueda extraer suficiente rendimiento para que esto funcione”. Intel probó exactamente esta estrategia con Itanium. No funcionó.

Dicho esto, hay mucho sobre la arquitectura de Prodigy que no está claro en este momento. Hay argumentos en varios foros sobre el grado en que se asemeja o no a Itanium o si su arquitectura debe entenderse más adecuadamente como VLIW, VLIW modificado, EDGE o algo más.

El Prodigio de Tachyum, basado en lo que hemos visto hasta la fecha, es muy largo en chisporroteo. Se supone que es el mejor procesador paralelo y el mejor procesador serie, a pesar del hecho de que las CPU y GPU ejecutan tipos muy diferentes de código. Puede igualar o superar los chips de gama alta de Intel, pero se ejecuta dentro de los sobres de potencia y los tamaños de troquel mejor que cualquier cosa que ARM o AMD pueda campo.

Las afirmaciones extraordinarias requieren pruebas extraordinarias. Aún no tenemos mucho de eso.

Ahora lea:

Deja un comentario

81 − = 74