Hadoop дахь жижиг файлуудын асуудал юу вэ?
Hadoop дахь жижиг файлуудын асуудал юу вэ?

Видео: Hadoop дахь жижиг файлуудын асуудал юу вэ?

Видео: Hadoop дахь жижиг файлуудын асуудал юу вэ?
Видео: Data Science with Python! Analyzing File Types from Avro to Stata 2024, May
Anonim

1) Жижиг файлын асуудал in HDFS : Их хэмжээгээр хадгалдаг жижиг файлууд эдгээр нь туйлын жижиг блокийн хэмжээг үр ашигтай зохицуулах боломжгүй юм HDFS . Уншиж байна жижиг файлууд Өгөгдлийн зангилаа хооронд өгөгдлийн зангилаа хооронд маш олон хайлт, олон үсрэлт ордог бөгөөд энэ нь үр ашиггүй мэдээлэл боловсруулахад хүргэдэг.

Үүнээс гадна Hadoop-д ямар файлууд жижиг файлын асуудлыг шийдвэрлэх вэ?

1) HAR ( Hadoop Архив) Файлууд -д танилцуулсан жижиг файлын асуудлыг шийдвэрлэх . HAR дээр нь давхарга нэвтрүүлсэн HDFS интерфэйсийг хангадаг файл хандах. Ашиглаж байна Hadoop архивын тушаал, HAR файлууд үүсгэгддэг бөгөөд энэ нь a MapReduce савлах ажил файлууд руу архивлаж байна жижиг тоо HDFS файлууд.

Цаашилбал, би HDFS-д өөр өөр блокийн хэмжээтэй олон файлтай байж болох уу? Өгөгдмөл хэмжээ -ийн блок 64 MB байна. Та чадна өөрийн шаардлагаас хамааран өөрчилнө үү. Таны асуултанд ирэхэд тийм ээ олон файл үүсгэж болно янз бүрээр блокийн хэмжээ гэхдээ бодит цаг хугацаанд энэ болно үйлдвэрлэлийг дэмжихгүй.

Түүнээс гадна HDFS яагаад жижиг файлуудыг оновчтой зохицуулдаггүй вэ?

-тэй холбоотой асуудлууд жижиг файлууд болон HDFS Бүр файл , лавлах болон блоклох HDFS бол Дүрмээр бол нэрийн зангилааны санах ойд тус бүр нь 150 байт эзэлдэг объект хэлбэрээр дүрслэгддэг. Цаашлаад, HDFS тийм биш үр ашигтай нэвтрэхэд чиглэгдсэн жижиг файлууд : энэ байна үндсэндээ том хэмжээний урсгалын хандалт хийхэд зориулагдсан файлууд.

Hadoop яагаад удаан байдаг вэ?

Удаан Боловсруулах хурд Энэ дискний хайлт нь цаг хугацаа шаарддаг тул бүх процессыг маш их болгодог удаан . Хэрэв Hadoop өгөгдлийг бага хэмжээгээр боловсруулдаг, энэ нь маш их юм удаан харьцангуй. Энэ нь том өгөгдлийн багцад тохиромжтой. гэх мэт Hadoop Үндсэндээ багц боловсруулах хөдөлгүүртэй бөгөөд түүний бодит цагийн боловсруулалтын хурд бага байна.

Зөвлөмж болгож буй: