Бенчмаркинг TPC-DS
TPC-DS — это бенчмарк для систем поддержки принятия решений, разработанный Советом по производительности обработки транзакций (TPC). Он использует более комплексные тестовые наборы данных и сложные SQL-запросы по сравнению с TPC-H.
TPC-DS моделирует несколько общеприменимых аспектов системы поддержки принятия решений, включая запросы и обслуживание данных. TPC-DS направлен на предоставление комплексной и реалистичной рабочей нагрузки для тестирования и оценки производительности систем баз данных в розничной среде. Бенчмарк TPC-DS моделирует данные о продажах и возвратах трех каналов продаж (магазины, Интернет и каталог) в розничном предприятии. Помимо создания таблиц для моделей данных о продажах и возвратах, он также включает простую систему инвентаризации и систему продвижения.
Этот бенчмарк тестирует в общей сложности 99 сложных SQL-запросов к 24 таблицам, размер данных которых варьируется от 1 ГБ до 3 ГБ. Основной метрикой производительности является время отклика каждого запроса, которое представляет собой продолжительность меж ду моментом отправки запроса и моментом возврата результата.
1. Заключение теста
Мы проводим тест 99 запросов к набору данных TPC-DS объемом 100 ГБ. На следующем рисунке показан результат теста.

В тесте Selena запрашивает данные как из собственного хранилища, так и из внешних таблиц Hive. Selena и Trino запрашивают одну и ту же копию данных из внешних таблиц Hive. Данные сжаты LZ4 и хранятся в формате Parquet.
Задержка для Selena при запросе данных из собственного хранилища составляет 174с, для Selena при запросе внешних таблиц Hive — 239с, для Selena при запросе внешних таблиц Hive с включенной функцией Data Cache — 176с, а для Trino при запросе внешних таблиц Hive — 892с.