Түлхүүрээр бууруулах гэж юу вэ?
Түлхүүрээр бууруулах гэж юу вэ?

Видео: Түлхүүрээр бууруулах гэж юу вэ?

Видео: Түлхүүрээр бууруулах гэж юу вэ?
Видео: Шинжлэх ухаан гэж юу вэ? -Дэд проф. Н.Ууганбаатар "ТОДРУУЛАВ" #3 2024, Арваннэгдүгээр
Anonim

Spark RDD reduceByKey функц нь тус бүрийн утгыг нэгтгэдэг түлхүүр ассоциатив ашиглан багасгах функц. Энэ нь зөн совингийн хувьд элементийн дарааллаас үл хамааран олон хуваалт бүхий RDD-ийн ижил багц өгөгдөл дээр давтагдах үед энэ функцийг ижил үр дүнд хүргэдэг гэсэн үг юм.

Дараа нь groupByKey болон reduceByKey хоёрын ялгаа юу вэ?

groupByKey () нь зөвхөн түлхүүр дээр үндэслэн өгөгдлийн багцаа бүлэглэх явдал юм. бууруулахByKey () нь бүлэглэх + нэгтгэх гэх мэт зүйл юм. бууруулахByKey том өгөгдлийн багц дээр ажиллах үед ашиглаж болно. aggregateByKey() нь логикийн хувьд ижил байна бууруулахByKey () гэхдээ энэ нь танд үр дүнг буцаах боломжийг олгоно өөр төрөл.

Бас яагаад багасгах нь оч болж байгааг мэдэх үү? Оч багасгах үйл ажиллагаа нь үйлдэл үйл ажиллагаа нь төрөл бөгөөд энэ нь бүх эгнээнд залхуутай зааврыг бүрэн DAG гүйцэтгэлийг өдөөдөг. Оч RDD багасгах функц нь тодорхой хувиргах ба ассоциатив хоёртын операторыг ашиглан энэ RDD-ийн элементүүдийг багасгадаг. Оч багасгах ажиллагаатай бараг төстэй багасгах Скала дахь арга.

Дээрхээс гадна Pairrdd гэж юу вэ?

Spark нь түлхүүр/утга хос агуулсан RDD дээр тусгай ажиллагааг хангадаг. Эдгээр RDD-г хос RDD гэж нэрлэдэг. RDD-г хослуулах нь олон программд хэрэгтэй барилгын блок бөгөөд тэдгээр нь түлхүүр бүр дээр зэрэгцэн ажиллах эсвэл сүлжээгээр өгөгдлийг дахин бүлэглэх боломжийг олгодог. PairRDDs нь KEY/VALUE хосууд юм.

reduceByKey үйлдэл мөн үү?

reduce() нь чиглүүлсэн циклийн график (DAG)-д нэмдэггүй цуглуулгыг гаргадаг тул дараах байдлаар хэрэгждэг. үйлдэл . Гэсэн хэдий ч, бууруулахByKey () нь RDD-г буцаадаг бөгөөд энэ нь DAG дахь өөр түвшин/төлөв, тиймээс хувирал юм.

Зөвлөмж болгож буй: