Компания AMD пытается выйти на новые сегменты рынка ИИ, анонсировав свою первую языковую модель AMD-135M. Это малая (SLM), но очень быстрая модель, нацеленная на развертывание в частном бизнесе.
Разрабатывая AMD-135M, компания использовала новый подход, который называет «спекулятивным декодированием». Его суть заключается в использовании дополнительной «черновой модели» для генерации набора токенов-кандидатов, которые при выводе проверяются «целевой моделью». С одной стороны, такой подход позволяет генерировать несколько токенов одновременно, но с другой стороны, это приводит к повышению потребляемой мощности за счет увеличения передачи данных.
ИИ-модель представлена в базовой версии, а также в конфигурации AMD-135M-code. Базовая модель обучена на 670 млрд. токенов общих данных. Этот процесс занял шесть дней с использованием четырех 8-канальных узлов на базе AMD Instinct MI250. AMD-135M-code была улучшена за счет дополнительных 20 млрд. токенов, специально ориентированных на написание программного кода. Дополнительное обучение модели заняло четыре дня с использованием того же набора оборудования AMD.
Обе версии модели доступны на платформе Hugging Face.