Nvidia Tesla

Nvidia Tesla 2075

Tesla es un procesador con un diseño fuertemente paralelizado, también llamado procesador de flujo , de Nvidia . El procesador basado en tecnología GPU se puede direccionar utilizando la API CUDA interna y OpenCL . El producto competía directamente con FireStream o FirePro del competidor AMD .

Después de que se presentaran las primeras tarjetas basadas en la GPU G80 a mediados de 2007, las tarjetas Tesla siguieron un año después con el chip gráfico GT200, que también se usa para tarjetas gráficas de escritorio de la serie Geforce 200 .

Bajo el nombre en clave "Fermi" , Nvidia presentó el procesador gráfico de próxima generación el 30 de septiembre de 2009 en la "Conferencia de tecnología GPU" interna, que también está disponible en productos como Tesla, tarjetas Quadro y en una forma modificada (por ejemplo, recortado con Double Precision) se utiliza en la serie Geforce 400 . Nvidia anunció las tarjetas Tesla basadas en el procesador de gráficos Fermi para el segundo y tercer trimestre de 2010 en la exposición Supercomputing 09.

Con controladores más recientes, las posibilidades en OpenGL, CUDA y OpenCL se han ampliado considerablemente en algunos casos.

tecnología

Tesla

G80

El procesador de gráficos G80 fue el primer procesador Nvidia que se basó en la arquitectura de sombreado unificada recientemente desarrollada . Después de que el G80 se instaló en las tarjetas gráficas Geforce 8800 GTX y GTS desde finales de 2006, Nvidia presentó los primeros modelos Tesla a mediados de 2007. El G80 se utiliza principalmente en el escalonamiento A3, ya que se instaló en la Geforce 8800 Ultra.

GT200

El procesador GT200 fue el segundo chip que Nvidia instaló en la serie Teslaser. A diferencia del G80, Nvidia planeó usar los modelos Tesla desde el principio (de ahí la T en el identificador) e implementó las capacidades de doble precisión en 30 unidades MADD adicionales de acuerdo con la especificación IEEE-754R , que es lo que Geforce- Las tarjetas gráficas no habrían sido necesarias.

Fermi

El Fermikern se fabrica mediante el proceso de fabricación de 40 nm y tiene alrededor de tres mil millones de transistores . En contraste con su predecesor, el GT200 , que es en gran parte un nuevo desarrollo basado en la arquitectura de sombreado unificada de la procesador gráfico G80 . Fermi se divide en 16 grupos de sombreadores, y cada grupo tiene 32 procesadores de flujo . Esto significa que hay un total de 512 procesadores de flujo. El Fermi-Chip tiene 16 unidades de "carga / almacenamiento", así como cuatro "unidades de función especial" separadas para calcular el seno y el coseno . También hay seis controladores de memoria de 64 bits para la memoria GDDR5 en el Fermikern , lo que da como resultado una interfaz de memoria de 384 bits. Esto permite ampliar la memoria a 1,5 GB, 3 GB y 6 GB. El controlador de memoria ahora también puede manejar la memoria ECC, que tiene su propia corrección de errores.

Nvidia ahora está otorgando una importancia cada vez mayor a la computación GPU, razón por la cual se han realizado muchos cambios en la arquitectura de Fermikern para mejorar el rendimiento en esta área. Fermi es el primer procesador de gráficos que tiene soporte completo para C ++ y es totalmente compatible con el estándar IEEE-754-2008 (anteriormente IEEE-754-1985). Esto último se hizo necesario para poder utilizar FMA (Fused Multiply-Add), que es más preciso que MAD , para mejorar las capacidades de doble precisión (cálculo con doble precisión ). Esto permite que cada clúster de sombreadores de Fermikern realice 16 operaciones de doble precisión por ciclo de reloj. Esto significa que Fermi puede realizar un total de 256 cálculos con doble precisión por ciclo, mientras que en el GT200 solo eran posibles 30. Además de la memoria compartida , el procesador de gráficos Fermi también tiene un caché L1 y L2 para mejorar las capacidades de computación de la GPU .

Kepler

GK104

El 22 de marzo de 2012 Nvidia presentó la Geforce GTX 680, la primera tarjeta gráfica de la serie Geforce 600, con la que se presentó la nueva arquitectura Kepler. La Geforce GTX 680 se basa en el procesador de gráficos GK104, que consta de 3,54 mil millones de transistores, así como 1536 procesadores de flujo y 128 unidades de textura, que están organizados en ocho grupos de sombreadores. La GK104-GPU se fabrica en el proceso de fabricación de 28 nm en TSMC y tiene un área de troquel de 294 mm². El GK104 se planeó originalmente como un chip gráfico para el sector del rendimiento. a. se puede reconocer por el rendimiento reducido de "doble precisión". Después de que Nvidia abandonó el procesador gráfico GK100 en favor del GK110, el GK104 también tuvo que usarse para el sector de gama alta, ya que el GK110 solo estaría disponible para la generación de actualización Kepler.

GK110

Con 7.100 millones de transistores en alrededor de 561 mm² (533 mm² en pasos B1 optimizados para producción), la GK110-GPU es el procesador de gráficos más grande y complejo de la generación Kepler. Consta de 2880 unidades de sombreado y 240 de textura, que se distribuyen en 15 bloques SMX (grupos de sombreadores). Estos, a su vez, se distribuyen en cinco grupos de procesamiento de gráficos, lo que significa que el GK110 tiene una relación de 3: 1 (en contraste con los procesadores gráficos restantes de la generación Kepler, que utilizan una relación de 2: 1). Otra característica especial del GK110 son las 64 ALU separadas adicionales por bloque SMX, que no son responsables de la operación de precisión simple (FP32) sino de la operación de precisión doble (FP64) . Las características "Dynamic Parallelism", "Hyper-Q" y "GPUDirect" también están destinadas al sector profesional y solo están disponibles en la GK110-GPU.

GK210

Debido a las limitaciones de la arquitectura Maxwell, se diseñó una versión mejorada del GK110 para la serie Tesla, el procesador gráfico GK210.

Maxwell

GM200

El procesador gráfico GM200 también funciona como un chip de gama alta de la serie Geforce 900 y en esta función reemplazó a la GPU GK110 de la serie Geforce 700 . El GM200 tiene 8 mil millones de transistores en un área de chip de 601 mm², lo que lo convierte en el procesador de gráficos más grande y complejo del mercado hasta entonces. Desde un punto de vista técnico, el GM200 con 96 raster, 3072 shader y 192 unidades de textura es una variante 50% más grande del GM204. Esto también difiere significativamente de sus predecesores: las GPU GF100, GF110 o GK110 todavía lo tenían tiene capacidades avanzadas de doble precisión (FP64) y también se usó en las series profesionales Quadro y Tesla. Por lo tanto, estaban en la GK110 z. Por ejemplo, se instalaron 64 ALU separadas en cada bloque SMX , lo que resultó en una tasa de DP de 1/3. Dado que estas ALU separadas faltan en el GM200 (probablemente se hayan eliminado por razones de espacio, ya que la producción de procesadores gráficos con un tamaño de más de 600 mm² es casi imposible por razones técnicas y económicas), solo tiene una tasa de DP de 1/32 . Dado que las operaciones de doble precisión no son necesarias para las aplicaciones 3D, este aspecto no influyó en el sector del juego, pero hizo que el GM200 no fuera adecuado para las series profesionales Quadro y Tesla.

Por lo tanto, Nvidia se alejó de su estrategia anterior de desarrollar un chip de alta gama / entusiasta para las tres series y solo usó el GM200 para el Tesla M40. En cambio, se diseñó una versión mejorada del Kepler GK110, el procesador gráfico GK210, para el Tesla K80.

GM204

El procesador gráfico GM204 fue la primera GPU de la serie Geforce 900 y utiliza la "arquitectura Maxwell de segunda generación". Al igual que con la primera generación de Kepler, la serie Geforce 600 , Nvidia está enviando el chip de rendimiento (GM204) al mercado antes que el chip de gama alta (GM200). Después de que Nvidia, al igual que AMD, prescindiera de la producción de 20 nm en TSMC , la GM204 seguirá produciéndose en una producción de 28 nm, contrariamente a los planes originales. Tiene 5,2 mil millones de transistores en un área de chip de 398 mm². La estructura básica es idéntica a la de la GPU GM107 de la primera generación de Maxwell: los clústeres de sombreadores (SMM) todavía contienen 128 sombreadores y 8 unidades de textura, pero la caché de nivel 1 y las texturas se han cambiado de 64 kByte a 96 kByte -Cache aumentó de 24 kByte a 48 kByte por clúster. El GM204 consta de un total de 16 clústeres de sombreadores, con cuatro clústeres cada uno colgando de un motor de trama, lo que significa que el GM204 tiene 2048 procesadores de flujo, 128 unidades de textura, 64 ROP y una caché de nivel 2 de 2 MB. Para compensar la pequeña interfaz de memoria de 256 bits en comparación con otras GPU de esta clase, Nvidia introdujo la función "Compresión de color delta de tercera generación", que es un ahorro de ancho de banda que se supone que reduce la carga de memoria en alrededor de un 25%.

Debido a las limitaciones en el rendimiento de Double Precision a 1/32 de Single Precision, las tarjetas Tesla K con arquitectura Kepler seguirán ofreciéndose con su mayor rendimiento.

Pascal

GP100

Los chips Pascal se denominan "GP100" y, gracias a su alta potencia y eficiencia de cálculo, son especialmente adecuados para la informática de alto rendimiento y el aprendizaje profundo. Con el Tesla P100, Nvidia presentó el primer acelerador informático con un chip GP100 en la primavera de 2016 en el GPC 2016. Pascal sustituirá a medio plazo a los chips gráficos Kepler y Maxwell en el sector profesional. GPU100 consta de 15 mil millones de transistores y contiene hasta 3840 núcleos de sombreado. Nvidia fabrica la GPU GP100 en TSMC utilizando el proceso FinFET de 16 nm, que es significativamente más eficiente energéticamente que la tecnología anterior de 28 nm. Cuando se trata de memoria, Nvidia usa HBM 2 (High Bandwidth Memory 2), al menos para el Tesla P100. En comparación con HBM 1, que actualmente solo utiliza AMD para tarjetas gráficas con GPU Fiji, HBM 2 permite tasas de transferencia más altas y más memoria por GPU.

Al igual que la contraparte de AMD en Fiji, el GP100 se encuentra en un intercalador (o "portador") y está conectado a la memoria HBM-2 protegida con ECC de 16 GByte a través de un total de 4096 líneas de datos. Las cuatro pilas de memoria están ubicadas muy cerca de la GPU para reducir las rutas de la señal y, en consecuencia, maximizar la tasa de transferencia. Con el Tesla P100, es de 720 GB por segundo.

Volta

GV100

Volta está diseñado principalmente para cálculos en el campo de la inteligencia artificial o el aprendizaje profundo. La GPU, denominada "GV100", consta de 21,1 mil millones de transistores y contiene 5376 núcleos de procesamiento de sombreado en un área de chip de 815 mm². Nvidia produce la GPU GV100 en el fabricante por contrato taiwanés TSMC en el proceso FFN de 12 nanómetros.

En el Tesla V100, sin embargo, Nvidia solo activa 80 de los 84 clústeres de sombreadores para aumentar el rendimiento del chip. Esto significa que hay 5120 núcleos de sombreado disponibles para FP32. La GV100-GPU permite realizar cálculos de precisión simple con hasta 15 TFlops (30 TFlops para FP16), las unidades de doble precisión 2560 administran teóricamente 7.5 FP64-TFlops. Con la tarjeta PCIe, Volta alcanza una potencia de cálculo teórica ligeramente inferior de 14 o 7 TFlops en comparación con la variante SXM2 (debido a la frecuencia de reloj ligeramente más baja: 1370 en lugar de 1455 MHz). Además, Volta contiene 640 unidades especiales de aprendizaje profundo. De estos denominados núcleos tensoriales, cada multiprocesador de transmisión contiene ocho núcleos tensoriales. Puede alcanzar una potencia de cálculo de hasta 120 TFlops tanto durante el entrenamiento como durante la inferencia de redes neuronales. Sin embargo, solo se pueden programar de forma limitada.

La memoria HBM-2 (High Bandwidth Memory 2) se utiliza para la memoria, que alcanza los 900 GByte / s en el Tesla V100. Al igual que con el predecesor Tesla P100, el tamaño de la memoria se mantiene en 16 GB. En teoría, es posible una expansión de la memoria a 32 GB. En comparación con el chip Pascal del Tesla P100, el caché L1 de Volta tiene una latencia 4 veces menor y alcanza un rendimiento de alrededor de 14 terabytes / s.

Turing

TU104

La nueva tarjeta Turing T4 de la serie Tesla se encuentra en el límite de potencia PCIe 3.0 de 75 vatios y por lo tanto es ideal para servidores.

Procesadores

Dado que la mayoría de las tarjetas carecen de puertos de salida debido al enfoque en los cálculos con GPU, las interfaces de cómputo OpenCL y CUDA son las más importantes aquí. El soporte de evaluación OpenCL 2.0 está disponible con la versión de controlador 378.66 para Kepler, Maxwell y Pascal. OpenGL 4.6 es posible desde Fermi con los controladores más recientes de 381 para Linux y 387 para Windows.

chip producción unidades interfaz
Proceso
en nm
Transis-
interfiere

en millones
El -
área
en mm²
Funciones de las
partículas ROP
ROP Sombreadores unificados
Modelo de sombreado
Directo
X
Abrir
GL
Abrir
CL
Cuda
CAPA
bilidad
Cuda
SDK
(máx.)
hardware

Procesadores de flujo
Shader -
clúster
unidades
Tesla G80 90 681 484 Sexto 24 128 Octavo 4.0 10.0 3.3 1.1 1.0 6.5 PCIe
Tesla GT200 / b 65/55 1400 576/470 Octavo 32 240 10 4.0 10.1 3.3 1.1 1.3 6.5 PCIe 2.0
Fermi GF100 40 3000 526 Sexto 48 512 dieciséis 5,0 11,0 4.6 1.1 2.1 8.0 PCIe 2.0
Fermi GF110 40 3000 526 Sexto 48 512 dieciséis 5,0 11,0 4.6 1.1 2.1 8.0 PCIe 2.0
Kepler GK104 28 3540 294 Cuarto 32 1536 Octavo 5,0 11,0 4.6 1,2 (2,0) 3,0 10.0 PCIe 3.0
Kepler GK110 28 7100 561 Sexto 48 2880 15 5,0 11,0 4.6 1,2 (2,0) 3,0 10.0 PCIe 3.0
Kepler GK210 28 aprox.7100 aprox.561 Sexto 48 2880 15 5,0 11,0 4.6 1,2 (2,0) 3,5 10.0 PCIe 3.0
Maxwell GM200 28 8.000 601 Sexto 96 3072 24 5,0 12,0 4.6 1,2 (2,0) 5.2 10.0 PCIe 3.0
Maxwell GM204 28 5.200 398 Cuarto 64 2048 dieciséis 5,0 12,1 4.6 1,2 (2,0) 5.2 10.0 PCIe 3.0
Maxwell GM206 28 2,940 227 2 32 1024 Octavo 5,0 12,1 4.6 1,2 (2,0) 5.2 10.0 PCIe 3.0
Pascal GP100 dieciséis 15,300 610 10 96 3840 60 5,0 12.1+ 4.6 1,2 (2,0) 6.0 10.0 PCIe 3.0 , NVLink
Volta GV100 12 21,100 815 128 5376 84 5,0 12.1+ 4.6 1,2 (2,0) 7.0 10.0 PCIe 3.0 , NVLink
Turing TU104 12 13.600 545 64 2560 40 6.3 12.1+ 4.6 1,2 (2,0) 7.5 10.0 PCIe 3.0 , NVLink

Datos del modelo

Nombre del modelo procesador Almacenamiento
Tipo Transmitir
en procesadores
Sors
Chip de reloj
Sombreador de reloj
Potencia de cálculo en GFLOPS Tamaño
en MB
Tacto
Tipo
Interfaz de almacenamiento
Tasa de
rendimiento de almacenamiento
Half
Prec.
(FP16)
Single
Prec.
(MAD + MUL)
Single
Prec.
(MAD o FMA)
Doble
Prec.
(FMA)
unidades megahercio megahercio MEGABYTE megahercio GB / s
Tesla C870 G80 128 600 1350 ¿No? 519 No 1536 800 GDDR3 384 bits 77
Tesla D870 2 × G80 256 600 1350 ¿No? 1037 No 3072 800 GDDR3 2 × 384 bits 2 × 77
Tesla S870 4 × G80 512 600 1350 ¿No? 2074 No 6144 800 GDDR3 4 × 384 bits 4 × 77
Tesla C1060 GT200 240 602 1296 ? 933 622 78 4096 800 GDDR3 512 bits 102
Tesla S1070 4 × GT200 960 602 1296 ? 3732 2488 311 16,384 800 GDDR3 4 × 512 bits 4 × 102
4 × GT200b 1440 ? 4147 2765 345
Tesla C2050 Fermi GF100 448 575 1150 ? No 1030 515 3072 1500 GDDR5 384 bits 144
Tesla M2050 GF100 448 575 1150 ? No 1030 515 3072 1550 GDDR5 384 bits 148
Tesla C2070 GF100 448 575 1150 ? No 1030 515 6144 1500 GDDR5 384 bits 144
Tesla M2070 GF100 448 575 1150 ? No 1030 515 6144 1550 GDDR5 384 bits 150
Tesla S2050 4 × GF100 1792 575 1150 ? No 4120 2060 12,288 1500 GDDR5 4 × 384 bits 4 × 144
Tesla S2070 4 × GF100 1792 575 1150 ? No 4122 2061 24,576 1500 GDDR5 4 × 384 bits 4 × 144
Tesla M2090 Fermi GF110 512 650 1300 ? No 1331 666 6144 1850 GDDR5 384 bits 177
Tesla K10 2 × GK104 3072 745 ? No 4580 191 8192 2500 GDDR5 2 × 256 bits 2 × 160
Tesla K20 GK110 2496 705 ? No 3524 1175 5120 2600 GDDR5 320 bits 208
Tesla K20X GK110 2688 735 ? No 3935 1312 6144 2600 GDDR5 384 bits 250
Tesla K40 GK110B 2880 745 (aumento: 810/875) ? No 4290 1430 12,288 3004 GDDR5 384 bits 288
Tesla K80 2 × GK210 5760 590 ? No 5591-8736 1864-2912 24,576 3004 GDDR5 2 × 384 bits 2 × 288
Tesla M4 GM206 1024 872 (Impulso: 1072) ? No 1786-2195 56-69 4096 2750 GDDR5 128 bits 88
Tesla M40 GM200 3072 948 (Impulso: 1114) ? No 5825-6844 182-214 12288 3000 GDDR5 384 bits 288
Tesla M6 GM204 1536 930 (impulso 1180) ? No 2857 2857/32 8192 2750 GDDR5 256 bits 160
Tesla M60 2x GM204 4096 900 (Impulso: 1180) ? x SP No 7373-9667 230-302 2 × 8192 2500 GDDR5 2 × 256 bits 2 × 160
Tesla P4 GP104 2560 810 (Impulso: 1063) 2x SP No 5500 1/32 SP 8000 1500 (efectivo 6000) GDDR5 256 bits 192
Tesla P40 GP102 3840 1303 (Impulso: 1531) 2x SP No 12000 1/32 SP 24000 1251 (efectivo 10008) GDDR5 X 384 bits 346
Tesla P100 "PCIe 12GB 250W" GP100 3584 1175 (Impulso: 1300)? 2x SP No 8000-9300 4700 12288 700 HBM2 3072 bits 540
Tesla P100 "PCIe 16GB 250W" GP100 3584 1175 (Impulso: 1300)? 2x SP No 8000-9300 4700 16384 700 HBM2 4096 bits 720
Tesla P100 "NVLink 300W" GP100 3584 1328 (Impulso: 1480) 2x SP No 9519-10609 5300 16384 700 HBM2 4096 bits 720
Tesla V100 PCle 250 W GV100 5120 (Impulso: 1370) Modo tensor 8x SP No 14000 7000 16384 876 (efectivo 1752) HBM2 4096 bits 900
Tesla V100 SXM2 NVLink 300 W GV100 5120 (Impulso: 1455) Modo tensor 8x SP No 15000 7500 16384 876 (efectivo 1752) HBM2 4096 bits 900
Tesla T4 PCIe 70 W TU104 2560 1005 (Impulso: 1515) Modo tensor 8x SP No 8100 1/32 SP 16384 1250 (hasta 10.000) GDDR6 256 bits 320

enlaces web

Commons : serie Nvidia Tesla  : colección de imágenes, videos y archivos de audio

Evidencia individual

  1. ATI Stream Technology - Comercial ( Memento del 19 de febrero de 2010 en Internet Archive )
  2. Tom hardware: velocidad de DP de la GTX 480 reducida ( recuerdo de la original, del 2 de julio de 2010 en el Archivo de Internet ) Información: El archivo de enlace se inserta de forma automática y sin embargo no se comprueba. Verifique el enlace original y de archivo de acuerdo con las instrucciones y luego elimine este aviso. , Mensaje del 6 de abril de 2010 @ 1@ 2Plantilla: Webachiv / IABot / www.tomshardware.de
  3. golem: Nvidia nombra los primeros valores de rendimiento para Fermi , mensaje del 16 de noviembre de 2009
  4. de.download.nvidia.com (PDF)
  5. de.download.nvidia.com (PDF)
  6. de.download.nvidia.com (PDF)
  7. Tesla K80 - Kepler dual con hasta 8.7 TFLOPS para supercomputadoras. ComputerBase, 17 de noviembre de 2014, consultado el 6 de agosto de 2015 .
  8. a b Análisis de lanzamiento: nVidia GeForce GTX Titan X. 3DCenter.org, 18 de marzo de 2015, consultado el 10 de junio de 2015 .
  9. Análisis de lanzamiento: nVidia GeForce GTX 970 & 980.3DCenter, 19 de septiembre de 2014, consultado el 3 de febrero de 2015 .
  10. heise.de
  11. images.nvidia.com (PDF)
  12. heise online: Tesla V100: Nvidia entrega las primeras tarjetas de cálculo de Volta a los investigadores de aprendizaje profundo. heise en línea, consultado el 12 de septiembre de 2017 .
  13. heise.de
  14. streamcomputing.eu
  15. developer.nvidia.com
  16. Whitepaper Kepler GK110 (PDF; 1,7 MB)
  17. Archivo de copia ( recuerdo de la original, del 21 de junio, de 2016 en el Archivo de Internet ) Información: El archivo de enlace se inserta de forma automática y sin embargo no ha sido comprobado. Verifique el enlace original y de archivo de acuerdo con las instrucciones y luego elimine este aviso. (PDF; 2 MB) @ 1@ 2Plantilla: Webachiv / IABot / international.download.nvidia.com
  18. images.nvidia.com (PDF)
  19. techpowerup.com
  20. anandtech.com
  21. techpowerup.com
  22. techpowerup.com
  23. Máxima potencia de cálculo teórica, determinada computacionalmente, que nunca se puede alcanzar en términos reales con un código de programa significativo.
  24. Especificaciones de la placa del MÓDULO DE PROCESADOR DE COMPUTADORA DE DOBLE RANURA TESLA M2090 (PDF; 348 kB)
  25. Descripción general del producto M2090 (PDF; 423 kB)
  26. Especificaciones de la placa TESLA K10 GPU ACCELERATOR (PDF; 650 kB)
  27. NVIDIA® Tesla® Kepler GPU Computing Accelerators (PDF; 296 kB)
  28. Especificación de la placa TESLA K10 K20 K20X GPU ACCELERATOR (PDF; 193 kB)
  29. Hassan Mujtaba: Tarjeta gráfica NVIDIA Tesla K80 “GK210-DUO” que se dirige al mercado profesional: presenta más de 2 TFlops de cómputo de doble precisión. WCCFtech.com, consultado el 29 de noviembre de 2014 .
  30. techpowerup.com
  31. techpowerup.com
  32. techpowerup.com
  33. heise.de
  34. techpowerup.com
  35. heise.de
  36. Archivo de copia ( recuerdo de la original, del 18 de octubre, de 2016 en el Archivo de Internet ) Información: El archivo de enlace se inserta de forma automática y sin embargo no ha sido comprobado. Verifique el enlace original y de archivo de acuerdo con las instrucciones y luego elimine este aviso. @ 1@ 2Plantilla: Webachiv / IABot / www.techpowerup.com
  37. a b NVIDIA Tesla V100 | NVIDIA. NVIDIA Corporation, consultado el 12 de septiembre de 2017 (inglés americano).
  38. a b Hoja de datos NVIDIA V100 GPU ACCELERATOR. (PDF) NVIDIA Corporation, julio de 2017, consultado el 12 de septiembre de 2017 .
  39. xcelerit.com
  40. nvidia.com