МЕТОД ДОСТУПА К ХРАНИЛИЩУ ДАННЫХ ПО ТЕХНОЛОГИИ SPARK С КАСКАДНЫМ ИСПОЛЬЗОВАНИЕМ ФИЛЬТРА БЛУМА
Разработан новый метод выполнения SQL-запросов в среде параллельных вычислений Apache Spark. Он включает представление исходного запроса в виде нескольких подзапросов, разработку графа соединения и преобразования подзапросов, определение соединений, где необходимо использовать фильтры Блума, представление графа на языке Spark. На примере запроса Q3 теста TPC-H проведены натурные эксперименты, подтвердившие эффективность разработанного метода по сравнению с методом Hive.
Ключевые слова: запрос SQL, платформа Spark, фильтр Блума, тест TPC-H, схема «снежинка», схема «звезда», Hive, SQLContext, время выполнения запроса, производительность