Сегодня компания NVIDIA представила до сих пор хранившийся в секрете графический процессор с архитектурой Ampere. Графический процессор NVIDIA A100 выпускается по 7 нм технологии компанией TSMC и содержит более 54 млрд. транзисторов на площади 826 мм2. Здесь используется 6 стеков памяти типа HBM2 производства компании Samsung совокупным объемом 40 Gb с пропускной способностью 1,6 Тb/с. Ядра CUDA разделились по специализации: для вычислений с плавающей запятой двойной точности (FP64) отведено 3456 ядер, одинарной (FP32) — 6912. Количество тензорных ядер достигает 432. Предусмотрены и потоковые мультипроцессоры в количестве 108 единиц.
В NVIDIA утверждают, что обучение нейронных систем с применением графических процессоров происходит в 20 раз быстрее по сравнению с предшественниками. Сфера применения ускорителей с архитектурой Ampere — это не только системы искусственного интеллекта, но и анализ Больших данных, научные расчеты и облачная графика. Архитектура Ampere использует тензорные ядра третьего поколения с поддержкой вычислений TF32. Внедрена и поддержка вычислений с плавающей запятой двойной точности (FP64).
Пиковая производительность A100 в обучаемых системах при использовании вычислений с плавающей запятой одинарной точности (FP32) достигает 312 терафлопс, это в 20 раз выше, чем у Volta. Целочисленные операции (INT8) в системах, способных делать логические выводы, Ampere выполняет со скоростью 1,248 трлн. в секунду. Отрыв от Volta в этом случае тоже в 20 раз. Наконец, в высокопроизводительных операциях с двойной точностью (FP64) новинка NVIDIA оказывается в 2,5 раза быстрее предшественницы.
Ориентацию на серверное применение A100 выдает и поддержка интерфейса NVLink третьего поколения, который позволяет обмениваться данными с аналогичными графическими процессорами со скоростью 600 Gb/с. Каждый графический процессор Ampere поддерживает двенадцать каналов NVLink 3.0. Впервые в серверном сегменте NVIDIA предлагает продукт с поддержкой PCI Express 4.0, им как раз является графический процессор A100. Кроме того, технология виртуализации MIG позволяет разделять ресурсы одного графического процессора на семь независимых сегментов.
Серийное производство графического процессора A100 уже началось, также стартовали и поставки клиентам.