Организация Apache Software Foundation объявила о запуске проекта Arrow, призванного обеспечить более чем 100-кратное увеличение производительности для колоночной in-memory аналитики на разнородных системах.
В общем случае ускорение распределенных рабочих нагрузок достигается устранением избыточных межсистемных коммуникаций. Arrow позволяет разделять доступ к данным между многими системами и обрабатывать их без (де)сериализации или создания копий данных, экономя от 70 до 80% циклов центрального процессора.
Согласно официальной информации, Apache Arrow создаётся на основе кода родственного проекта Apache Drill и при участии разработчиков из других проектов больших данных Apache — Calcite, Cassandra, Hadoop, HBase, Impala, Kudu, Parquet, Phoenix, Spark и Storm.
«Сообщество open-source объединило усилия в работе над Apache Arrow, — заявил Жак Надо, вице-президент по проектам Arrow и Drill. — Мы ожидаем, что через несколько лет большинство данных в мире будет обрабатываться с применением Arrow».
«Промышленный стандарт на слой колоночных in-memory данных позволит комбинировать многочисленные системы, приложения и языки программирования в единой рабочей нагрузке без обычной избыточности», — считает Тед Даннинг, вице-президент Apache Incubator.
Вдобавок к обычным реляционным, Arrow поддерживает сложные данные с динамическими схемами, например, JSON, используемые в IoT-нагрузках, современных приложениях и журнальных файлах, сообщает ko.com.ua.
ПО Apache Arrow предлагается на условиях Apache License v2.0 и контролируется самоизбранной группой наиболее активных участников этого проекта.