Видео: Паркетан өгөгдлийн формат гэж юу вэ?
2024 Зохиолч: Lynn Donovan | [email protected]. Хамгийн сүүлд өөрчлөгдсөн: 2023-12-15 23:50
Апачи Паркет нь үнэ төлбөргүй, нээлттэй эхийн баганад чиглэсэн өгөгдөл хадгалах формат Apache Hadoop экосистемийн. Энэ нь ихэнхтэй нийцдэг өгөгдөл Hadoop орчинд боловсруулах хүрээ. Энэ нь үр дүнтэй байдлыг хангадаг өгөгдөл нарийн төвөгтэй зохицуулах сайжруулсан гүйцэтгэл бүхий шахалт болон кодчилолын схемүүд өгөгдөл Бөөнөөр нь.
Зүгээр л, паркет файлын формат гэж юу вэ?
Паркет , нээлттэй эх сурвалж файлын формат Hadoop-ийн хувьд. Паркет үүрлэсэн өгөгдлийн бүтцийг хавтгай баганад хадгалдаг формат . Мэдээллийг мөр рүү чиглэсэн аргаар хадгалдаг уламжлалт аргатай харьцуулахад, паркет хадгалалт болон гүйцэтгэлийн хувьд илүү үр дүнтэй байдаг.
Цаашилбал, паркетыг юунд ашигладаг вэ? Паркет нь Hadoop экосистемийн аливаа төсөлд ашиглах боломжтой нээлттэй эхийн файлын формат юм. Апачи Паркет Энэ нь CSV эсвэл TSV файлууд зэрэг мөр дээр суурилсан файлуудтай харьцуулахад үр ашигтай, гүйцэтгэлтэй хавтгай багана хэлбэрийн өгөгдөлд зориулагдсан.
Нэмж дурдахад паркет формат нь өгөгдлийг хэрхэн хадгалах вэ?
ӨГӨГДӨЛ BLOCK -д байгаа блок бүр паркет файл байна хадгалсан эгнээний бүлгүүдийн хэлбэрээр. Тэгэхээр, өгөгдөл дотор паркет файлыг олон эгнээний бүлэгт хуваасан. Эдгээр эгнээний бүлгүүд нь нэг буюу хэд хэдэн баганын хэсгүүдээс бүрдэх бөгөөд энэ нь баганад харгалзах болно өгөгдөл тогтоосон. The өгөгдөл хуудас хэлбэрээр бичсэн баганын хэсэг бүрийн хувьд.
Паркетан нь хүн унших боломжтой юу?
ORC, Паркет , болон Avro нь бас машин- унших боломжтой хоёртын форматтай, өөрөөр хэлбэл файлууд нь утгагүй харагдаж байна хүмүүс . Хэрэв чамд хэрэгтэй бол хүн - унших боломжтой JSON эсвэл XML гэх мэт форматтай бол та юуны түрүүнд Hadoop-г яагаад ашиглаж байгаагаа дахин бодож үзэх хэрэгтэй.
Зөвлөмж болгож буй:
Өгөгдлийн төрөл ба өгөгдлийн бүтэц гэж юу вэ?
Өгөгдлийн бүтэц гэдэг нь өгөгдлийн хэсгүүдийг зохион байгуулах тодорхой арга замыг тайлбарлах арга бөгөөд ингэснээр үйлдлүүд болонлогрифмүүдийг илүү хялбар хэрэглэх боломжтой болно. Өгөгдлийн төрөл нь бүгд нийтлэг өмчийг хуваалцдаг өгөгдлийн төрлүүдийг тодорхойлдог. Жишээлбэл, бүхэл тоон өгөгдлийн төрөл нь компьютерийн ажиллах боломжтой бүхэл тоог тодорхойлдог
Өгөгдлийн төрөл ба өөр өөр өгөгдлийн төрлүүд гэж юу вэ?
Зарим нийтлэг өгөгдлийн төрөлд бүхэл тоо, хөвөгч цэгийн тоо, тэмдэгт, мөр, массив орно. Тэд мөн огноо, цагийн тэмдэг, логик утга, varchar (хувьсах тэмдэгт) формат гэх мэт тодорхой төрлийн байж болно
Массив нь өгөгдлийн бүтэц эсвэл өгөгдлийн төрөл мөн үү?
Массив гэдэг нь залгаа санах ойд хуваарилагдсан дараалсан дугаарлагдсан объектуудын дарааллыг хадгалдаг нэгэн төрлийн өгөгдлийн бүтэц (элементүүд нь ижил өгөгдлийн төрөлтэй) юм. Массивын объект бүрд түүний дугаарыг (өөрөөр хэлбэл индекс) ашиглан хандаж болно. Массив зарлахдаа түүний хэмжээг тохируулна
Өгөгдлийн хүрээ ба өгөгдлийн хүснэгт хоёрын ялгаа юу вэ?
Өгөгдөл. хүрээ нь үндсэн R. өгөгдлийн нэг хэсэг юм. хүснэгт нь өгөгдлийг өргөтгөх багц юм
Өгөгдлийн бүтцэд шугаман өгөгдлийн бүтэц гэж юу вэ?
Шугаман өгөгдлийн бүтэц: Өгөгдлийн элементүүдийг дараалсан эсвэл шугаман байдлаар байрлуулсан өгөгдлийн бүтэц бөгөөд элементүүд нь өмнөх болон дараагийн зэргэлдээх хэсэгт залгагдсан байдаг бөгөөд үүнийг шугаман өгөгдлийн бүтэц гэж нэрлэдэг. Шугаман өгөгдлийн бүтцэд нэг түвшин оролцдог. Тиймээс бид бүх элементүүдийг зөвхөн нэг гүйлтээр дамжуулж болно