Скала дахь RDD гэж юу вэ?
Скала дахь RDD гэж юу вэ?

Видео: Скала дахь RDD гэж юу вэ?

Видео: Скала дахь RDD гэж юу вэ?
Видео: Dark Web гэж юу вэ?Интернэтийн далд ертөнц/Dark Web dark side of the internet. 2024, May
Anonim

Тохиромжтой тархсан мэдээллийн багц ( RDD ) нь Spark-ийн үндсэн мэдээллийн бүтэц юм. Энэ нь өөрчлөгдөөгүй хуваарилагдсан объектуудын цуглуулга юм. RDDs ямар ч төрлийн Python, Java, эсвэл агуулж болно Скала объектууд, түүний дотор хэрэглэгчийн тодорхойлсон ангиуд. Албан ёсоор, а RDD нь зөвхөн унших боломжтой, хуваалттай бичлэгийн цуглуулга юм.

RDD болон DataFrame хоёрын ялгаа юу вэ?

RDD – RDD нь олон машинд тархсан өгөгдлийн элементүүдийн тархсан цуглуулга юм дахь бөөгнөрөл. RDDs нь өгөгдлийг төлөөлөх Java эсвэл Scala объектуудын багц юм. DataFrame – А DataFrame нэрлэсэн багана болгон зохион байгуулсан мэдээллийн тархсан цуглуулга юм. Энэ нь үзэл баримтлалын хувьд хүснэгттэй тэнцүү юм дотор харилцааны мэдээллийн сан.

Цаашилбал, RDD хэрхэн хуваарилагддаг вэ? Уян хатан Тархсан Өгөгдлийн багц ( RDDs ) Тэд а тараасан Кластерын янз бүрийн машинуудын санах ой эсвэл дискэн дээр хадгалагдсан объектуудын цуглуулга. Ганц бие RDD Эдгээр хуваалтуудыг кластерын өөр өөр машинууд дээр хадгалж, боловсруулахын тулд олон логик хуваалтуудад хувааж болно.

Spark RDD хэрхэн ажилладаг вэ?

RDDs in Оч хуваалтуудыг агуулсан бичлэгийн цуглуулгатай байна. RDDs in Оч нь жижиг логик өгөгдлийн хэсгүүдэд хуваагддаг - хуваалтууд гэж нэрлэгддэг бөгөөд үйлдлийг гүйцэтгэх үед хуваалт тус бүрээр ажил эхлэх болно. Хуваалтууд RDDs параллелизмын үндсэн нэгжүүд юм.

RDD эсвэл DataFrame аль нь илүү хурдан вэ?

RDD - Бүлэглэх, нэгтгэх энгийн үйлдлийг гүйцэтгэх үед RDD API илүү удаан байна. DataFrame - Хайгуулын шинжилгээ хийхдээ мэдээллийн нэгдсэн статистикийг бий болгох, өгөгдлийн фреймүүд байна Илүү хурдан . RDD - Хэрэв та доод түвшний өөрчлөлт, үйлдэл хийхийг хүсч байвал бид ашигладаг RDDs . Мөн өндөр түвшний хийсвэрлэл хэрэгтэй үед бид ашигладаг RDDs.

Зөвлөмж болгож буй: