Сегодня организации испытывают сильное давление, вынуждающее их использовать искусственный интеллект с целью достижения конкурентного преимущества. Но процесс идет не так быстро, как этого хотелось бы. Только около 40% крупных предприятий активно внедряют искусственный интеллект в своей работе и еще 40% находится на этапах исследования и экспериментов. Несмотря на огромный интерес, лишь 38% IT-специалистов признают, что отсутствие технологической инфраструктуры является основным препятствием для успеха искусственного интеллекта.
Почему так много организаций отстает в гонке за внедрение искусственного интеллекта? Harvard Business Review оценивает неудачи на уровне 80%, что примерно в 2 раза превышает уровень неудач при реализации других корпоративных IТ-проектов. Одними из главных причин, препятствующих успешному развертыванию искусственного интеллекта, являются ограниченные навыки и опыт в этой области. Фактически, 9 из 10 организаций страдают от нехватки IТ-навыков, что обнажает пробелы при проектировании, развертывании и текущем управлении кластером систем на базе искусственного интеллекта. 83% организаций признают, что без необходимого понимания, программных инструментов и опыта, они не могут в полной мере использовать свои графические процессоры и прочее оборудование для работы с моделями искусственного интеллекта даже после развертывания необходимой инфраструктуры.
Управление инфраструктурой искусственного интеллекта — это совершенно новая игра, которая требует существенно иного подхода по сравнению с традиционной IТ-инфраструктурой. Настройка стоимости, производительности, данных и операционной модели для конкретного варианта использования и рабочей нагрузки начинается с надежной инфраструктуры искусственного интеллекта, управляемой разумно. Вы не сможете перейти черту от проверки концепции к производству, пока не заложите эту основу. Компания Penguin Solutions (www.penguinsolutions.com), активно работающая в сферах высокопроизводительных вычислений (HPC) и искусственного интеллекта, предлагает познакомиться с пятью наиболее распространенными проблемами при построении архитектуры искусственного интеллекта и дает рекомендации, как предприятия могут преодолеть их.
Проблема № 1: IТ-отделы не готовы к искусственному интеллекту
IТ-отделы обладают инструментами, процессами, опытом мониторинга и управления рабочими нагрузками на уровне центральных процессоров, которые накапливались десятки лет. Однако современная инфраструктура искусственного интеллекта требует более глубоких возможностей мониторинга и управления. С появлением новых технологий, таких как мощные графические процессоры, высокоскоростные соединения, сетевые структуры с малой задержкой и даже системы жидкостного охлаждения, IТ-отделам приходится накапливать опыт для мониторинга и управления этими кластерами искусственного интеллекта. Проектирование архитектур вычислительных кластеров и кластеров хранения, построение топологий сетей и последующая настройка всего этого для достижения максимальной производительности для рабочих нагрузок искусственного интеллекта требует специальных навыков, опыта и знаний.
Решение: Инвестируйте в экспертизу инфраструктуры искусственного интеллекта
Многие организации подходят к этой задаче с ложным чувством уверенности, полагая, что их обширные знания и навыки в области IТ-инфраструктуры дают им возможности для достижения успеха на новом поле. К сожалению, это чаще всего означает, что им будет трудно запустить собственную инфраструктуру искусственного интеллекта и достичь ожидаемых результатов. Успех стратегии искусственного интеллекта зависит от самых первых принятых решений: вариантов использования, проектирования, потребностей в оборудовании, затрат и многого другого. Это требует практического и актуального опыта в проектировании, развертывании и управлении современной инфраструктурой искусственного интеллекта. К сожалению, взрывной рост интереса к искусственному интеллекту намного опередил моменты подготовки кадров в этой сфере, что затрудняет поиск нужных специалистов. На таком узком рынке люди крайне важны, и вы можете найти их путем обучения существующего персонала, найма извне или выбора правильного партнера по инфраструктуре искусственного интеллекта.
Задача № 2: Создание инфраструктуры для сегодняшних и будущих потребностей
Еще до проектирования системы организациям необходимо составить карту вариантов использования искусственного интеллекта, моделей и наборов данных, чтобы определить масштаб необходимой инфраструктуры. Важно учитывать такие факторы, как параметры модели, поддерживаемые пользователи и потребности в производительности, а также предвидеть, как эти потребности будут расти и меняться по мере дальнейшего внедрения искусственного интеллекта. В то же время организации должны также учитывать быстро растущие потребности в данных и постоянно меняющийся технологический ландшафт. Как организация может оставаться гибкой, легко масштабироваться и обеспечивать ожидаемую производительность, безопасность и стабильность при управлении чрезвычайно сложной архитектурой искусственного интеллекта?
Решение: Планировать с нуля
Во-первых, организация должна разработать комплексную дорожную карту внедрения искусственного интеллекта, которая определяет ресурсы, необходимые на каждом этапе пути создания инфраструктуры, и сроки их развертывания. Например, крайне важно начать проектирование с центра обработки данных, поскольку его возможности по питанию и охлаждению определят реальность существования кластера искусственного интеллекта и его будущую масштабируемость. Во-вторых, следует выбрать и интегрировать проверенные модульные архитектуры, которые позволяют легко настраивать конфигурацию для удовлетворения меняющихся вычислительных потребностей, обеспечивая при этом высокую доступность и производительность, даже если рабочие нагрузки и варианты использования со временем будут меняться.
Проблема № 3: Управление данными стало еще важнее
Искусственный интеллект зависит от эффективного управления большими наборами данных по всему конвейеру. Безопасность данных может стать проблемой, а обеспечение чистоты, точности и беспристрастности данных, а также соответствие внутренним и внешним нормам — это постоянный риск и постоянная ответственность. Каждый фрагмент данных становится ценным в инициативе по развертыванию инфраструктуры искусственного интеллекта, но он также становится более уязвимым, как только он выходит из хранилища организации. Кроме того, часто закрадывается предвзятость, вводимая тегами и маркировкой при обучении модели искусственного интеллекта. Установление соответствующих процессов, контроля и управления для использования данных безопасным и справедливым образом — это то, что должно быть главным приоритетом.
Решение: Установка защиты
Руководители должны понимать потенциальные ловушки, включая утечки, неправильное использование данных и неправильную категоризацию данных, а также предвзятость, прежде чем приступать к работе с данными и начинать инициативу по развертыванию инфраструктуры искусственного интеллекта. Затем они должны разработать процессы и инструменты для защиты данных во всех местах. Кроме того, важно определить, какие пользователи получают тот или иной доступ, и быть бдительными при отслеживании и мониторинге этой активности.
Проблема № 4: Управление инфраструктурой искусственного интеллекта требует нового подхода
Неправильно настроенные сети, сбои узлов или потеря графических процессоров могут нарушить работу, вызывая задержки при запуске новых продуктов или препятствуя обнаружению критически важных идей. Решение этих проблем затруднено из-за сложности архитектуры и необходимости в квалифицированных кадрах. Для проектирования оптимального кластера и интеллектуального управления им требуются экспертные знания. Кроме того, для успеха необходимы постоянная настройка и уточнение вашей модели на протяжении всего процесса развертывания инфраструктуры.
Решение: Внедрение новых операционных стратегий
Для поддержания инициативы по внедрению искусственного интеллекта на правильном пути и ее постоянной оптимизации требуется внедрение подхода AIOps (искусственный интеллект для IТ-операций), который объединяет большие данные, аналитику и машинное обучение в автоматизированную и интеллектуальную IТ-платформу. AIOps обеспечивает полную видимость и контроль над всеми аспектами конвейера искусственного интеллекта. Он автоматизирует сортировку и интеграцию организационных данных, выявляет проблемы производительности и доступности приложений, диагностирует основные причины сбоев, а затем устраняет их, чтобы свести к минимуму замедления и нехватку ресурсов. Таким образом, он открывает способы оптимизации рабочих нагрузок и повышения эффективности.
Проблема № 5: Окупаемость инвестиций зависит от доступности и производительности
Искусственный интеллект — это требовательное и дорогостоящее начинание, которое не может позволить себе неэффективные системы или ненужные простои. Тем не менее множество организаций ежедневно сталкиваются именно с этой проблемой. Например, в недавней статье Meta подробно описывается опыт компании по обучению своей модели Llama 3, которая может похвастаться 16000 графических процессоров в кластере. К сожалению, каждые 3 часа в кластере происходил сбой, связанный с графическим процессором. А когда система выполняет одновременную параллельную рабочую нагрузку, это может привести к задержкам, перезапускам заданий или даже неверным результатам. Например, если у вас доступно 70% узлов GPU, с помощью которых вы достигаете 70% целевой производительности от своей системы, то вы реализуете только 49% потенциальной ценности ваших инвестиций в инфраструктуру искусственного интеллекта. 51% потерянной стоимости окажет значительное негативное влияние на ваш ROI.
Решение: Автоматизация — это ключ
Возможность контролировать, управлять и создавать процессы, которые автоматизируют и предсказывают сбои, — лучший способ снизить большую часть риска. Когда в Meta внедрили автоматизированные инструменты и процессы, они увидели один учебный запуск с более чем 400 прерываниями. Все, кроме трех из этих прерываний, были автоматически обработаны без вмешательства человека и без необходимости останавливать работу.
Взгляд вперед и запуск стратегии искусственного интеллекта
Запуск стратегии искусственного интеллекта требует времени, усилий и большого количества специализированных навыков и понимания. Решение этих проблем и одновременное отставание от конкурентов, запускающих свои собственные инициативы, становится все более рискованным, особенно при работе с быстро развивающейся технологией. Проблема заключается не только в сложности или даже в наборе навыков, речь идет о развитии вашей организации вместе с этой технологией.
Чтобы обеспечить успешную инициативу в области искусственного интеллекта, организации должны быть в курсе последних технологических достижений и развивать внутреннюю культуру в отношении искусственного интеллекта. Используя возможности AIOps и MLOps (набор практик, нацеленных на надежное и эффективное развертывание и поддержание моделей машинного обучения на производстве), эти организации могут беспрепятственно интегрировать искусственный интеллект в свои рабочие процессы в различных командах и областях. Для непрерывной оптимизации своих моделей искусственного интеллекта необходимо ликвидировать разрозненность отделов и поощрять сотрудничество между ними. Культура экспериментов, итераций и обучения как на успехах, так и на неудачах, подкрепленная партнерством с экспертами в области искусственного интеллекта, будет иметь основополагающее значение для долгосрочного успеха выбранной стратегии.
Нужны надежные инвестиции в правильные инструменты, партнеров и экспертизу. Искусственный интеллект — это огромная задача, но разработка фундамента и этих возможностей с самого начала поможет вам обеспечить возврат инвестиций и более короткий период до момента получения ценности, значительно снизит риск для бизнеса и даст конкурентное преимущество, столь необходимое для успеха на рынке.