Я сам опробовал на практике ситуацию, описанную в вопросе, поэтому могу поделиться своим личным опытом. Кластер Hadoop, который у меня есть, состоит из 30 DataNode, каждый из которых имеет 512 Гб дискового пространства в HDFS. Когда я решил загрузить на кластер 5 текстовых файлов по 1 Тб каждый и выполнить над ними стандартную задачу WordCount, я столкнулся с рядом проблем. Во-первых, из-за размера каждого файла, превышающего доступное дисковое пространство на DataNode, процесс загрузки файлов прервался. Хотя кластер имеет достаточно пространства в целом, но оно распределено между DataNode, поэтому отдельные файлы могут не поместиться на отдельных узлах. Во-вторых, из-за настроек кластера, таких как фактор репликации 2 и размер блока 128 Мб, задача WordCount столкнулась с проблемой превышения количества разделений. Каждый файл разбивается на блоки размером 128 Мб, и эти блоки реплицируются на другие DataNode в соответствии с фактором репликации. Однако, так как каждый файл имеет размер в 1 Тб, количество разделений может превысить допустимое значение, и задача WordCount будет прервана. Таким образом, исходя из моего опыта, правильным ответом на вопрос будет⁚ Заливка файлов прервётся, когда все диски заполнятся. Это связано как с ограниченным дисковым пространством на каждом DataNode, так и с ограничениями на количество разделений при заданном размере блока и факторе репликации.
Мой совет для подобных ситуаций ー перед загрузкой больших файлов на Hadoop-кластер, проверьте доступное дисковое пространство на каждом узле и учитывайте настройки кластера, такие как размер блока и фактор репликации. Возможно, потребуется изменить настройки или подобрать оптимальные параметры для успешной загрузки и выполнения задач на кластере.