ИНФОРМАТИКА И СИСТЕМЫ УПРАВЛЕНИЯ

Григорьев Ю. А., Ермаков Е. Ю., Пролетарская В. А.

МЕТОД ДОСТУПА К ХРАНИЛИЩУ ДАННЫХ ПО ТЕХНОЛОГИИ SPARK С КАСКАДНЫМ ИСПОЛЬЗОВАНИЕМ ФИЛЬТРА БЛУМА

Разработан новый метод выполнения SQL-запросов в среде параллельных вычислений Apache Spark. Он включает представление исходного запроса в виде нескольких подзапросов, разработку графа соединения и преобразования подзапросов, определение соединений, где необходимо использовать фильтры Блума, представление графа на языке Spark. На примере запроса Q3 теста TPC-H проведены натурные эксперименты, подтвердившие эффективность разработанного метода по сравнению с методом Hive.

Ключевые слова: запрос SQL, платформа Spark, фильтр Блума, тест TPC-H, схема «снежинка», схема «звезда», Hive, SQLContext, время выполнения запроса, производительность