Компания Microsoft представила свою самую маленькую модель искусственного интеллекта Phi-3 Mini. Она стала первой из трех небольших языковых моделей Phi-3, которые софтверный гигант планирует выпустить в ближайшее время.
Phi-3 Mini с 3,8 млрд. параметров обучается на меньшем наборе данных в сравнении с большими языковыми моделями (LLM), такими как GPT-4. Корпоративный вице-президент Microsoft Azure AI Platform Эрик Бойд (Eric Boyd) заявил, что Phi-3 Mini по своим возможностям не уступает таким LLM, как GPT-3.5, и выполнена «в меньшем форм-факторе». Также Microsoft планирует выпустить ИИ-модели Phi-3 Small и Phi-3 Medium, которые насчитывают 7 млрд. и 14 млрд. параметров соответственно.
В декабре прошлого года Microsoft выпустила модель Phi-2, которая работала так же хорошо, как и более крупные модели, такие как Llama 2. По словам разработчиков, Phi-3 работает лучше предыдущей версии и может давать ответы, близкие к тем, что дают модели в 10 раз больше. Если Phi-1 была ориентирована на кодирование, а Phi-2 начала учиться рассуждать, то Phi-3 еще лучше справляется с кодированием и рассуждениями.
По сравнению с более крупными аналогами, небольшие ИИ-модели обычно дешевле в эксплуатации и лучше работают на персональных устройствах, таких как смартфоны и ноутбуки. В начале этого года Microsoft создал отдельную команду для разработки именно небольших ИИ-моделей. Наряду с Phi компания также создала модель Orca-Math, которая ориентирована на решение математических задач.
По словам Бойда, разработчики обучали Phi-3 по «учебному плану». Они вдохновлялись тем, как дети учатся на сказках, читаемых перед сном. Это книги с более простыми словами и структурами предложений, но в то же время зачастую в них поднимаются важные темы. Поскольку существующей литературы для детей при тренировке Phi-3 не хватало, разработчики взяли список из более чем 3000 тем и попросили большие языковые модели написать дополнительные «детские книги» специально для обучения Phi-3.
ИИ-модель Phi-3 Mini уже доступна в Azure, Hugging Face и Ollama.