Агуулгын хүснэгт:

Hadoop дахь өөр өөр файлын форматууд юу вэ?
Hadoop дахь өөр өөр файлын форматууд юу вэ?

Видео: Hadoop дахь өөр өөр файлын форматууд юу вэ?

Видео: Hadoop дахь өөр өөр файлын форматууд юу вэ?
Видео: Hadoop дахь паркетан файл, Avro файл, RC, ORC файлын форматууд | Hadoop дахь өөр өөр файлын формат 2024, May
Anonim

Таны хувьд аз болоход том дата нийгэмлэг үндсэндээ гурван оновчтой хувилбар дээр тогтсон файлын форматууд -д ашиглах Hadoop кластерууд: Оновчтой эгнээ багана (ORC), Avro, болон Паркет.

Дараа нь, өөр өөр төрлийн өгөгдлийн формат гэж юу вэ?

Гурав байна өгөгдлийн төрлүүд зураглал ба GIS өгөгдлийн форматууд . Тус бүр төрөл өөрөөр авч үздэг.

Өгөгдлийн форматын төрлүүд

  • Файлд суурилсан - Shapefiles, Microstation Design Files (DGN), GeoTIFF зургууд.
  • Лавлах дээр суурилсан - ESRI ArcInfo Coverages, US Census TIGER.
  • Өгөгдлийн сангийн холболтууд - PostGIS, ESRI ArcSDE, MySQL.

Нэмж хэлэхэд, үүрэнд аль файлын формат хамгийн тохиромжтой вэ? RCFile нь багана мөр юм файлын формат . Энэ бол өөр нэг хэлбэр юм Hive файлын формат Энэ нь эгнээний өндөр түвшний шахалтын хурдыг санал болгодог. Хэрэв танд нэг удаад олон эгнээ хийх шаардлага байгаа бол та RCFile ашиглаж болно формат.

Үүнийг харгалзан үзэхэд Hadoop дахь нийтлэг оролтын форматууд юу вэ?

InputFormat нь Inputsplit-ийг үүсгэдэг

  • Хамгийн түгээмэл InputFormat нь:
  • FileInputFormat- Энэ нь бүх файлд суурилсан InputFormat-ын үндсэн анги юм.
  • TextInputFormat- Энэ нь MapReduce-ийн өгөгдмөл InputFormat юм.
  • KeyValueTextInputFormat- Энэ нь TextInputFormat-тай төстэй.
  • Hadoop дээрх InputFormat-ийн талаар илүү ихийг мэдэхийн тулд холбоосыг дагана уу.

Hadoop дахь orc файлын формат гэж юу вэ?

ORC файлын формат Оновчтой мөр багана ( ORC ) файлын формат нь Hive өгөгдлийг хадгалах өндөр үр ашигтай арга замыг санал болгодог. Энэ нь бусад үүрний хязгаарлалтыг даван туулах зорилготой юм файлын форматууд . Ашиглаж байна ORC файлууд Хвейс өгөгдлийг унших, бичих, боловсруулах үед гүйцэтгэлийг сайжруулдаг.

Зөвлөмж болгож буй: