Datalake FAQ
FAQ по озеру данных
В этом разделе описаны часто задаваемые вопросы (FAQ) об озере данных и предоставлены решения этих проблем. Некоторые метрики, упомянутые в этом разделе, можно получить только из профилей SQL-запросов. Чтобы получить профили SQL-запросов, необходимо указать set enable_profile=true.
Медленные DataNodes HDFS
Описание проблемы
При доступе к файлам данных, хранящимся в вашем кластере HDFS, вы можете обнаружить огромную разницу между значениями метрик __MAX_OF_FSIOTime и __MIN_OF_FSIOTime из профилей выполняемых SQL-запросов. Это указывает на то, что некоторые DataNodes в кластере HDFS работают медленно. Следующий пример представляет типичный профиль, который указывает на проблему медленного DataNode HDFS:
- InputStream: 0
- AppIOBytesRead: 22.72 GB
- __MAX_OF_AppIOBytesRead: 187.99 MB
- __MIN_OF_AppIOBytesRead: 64.00 KB
- AppIOCounter: 964.862K (964862)
- __MAX_OF_AppIOCounter: 7.795K (7795)
- __MIN_OF_AppIOCounter: 1
- AppIOTime: 1s372ms
- __MAX_OF_AppIOTime: 4s358ms
- __MIN_OF_AppIOTime: 1.539ms
- FSBytesRead: 15.40 GB
- __MAX_OF_FSBytesRead: 127.41 MB
- __MIN_OF_FSBytesRead: 64.00 KB
- FSIOCounter: 1.637K (1637)
- __MAX_OF_FSIOCounter: 12
- __MIN_OF_FSIOCounter: 1
- FSIOTime: 9s357ms
- __MAX_OF_FSIOTime: 60s335ms
- __MIN_OF_FSIOTime: 1.536ms