Агуулгын хүснэгт:

PySpark цуглуулах гэж юу вэ?
PySpark цуглуулах гэж юу вэ?

Видео: PySpark цуглуулах гэж юу вэ?

Видео: PySpark цуглуулах гэж юу вэ?
Видео: Pyspark гэж юу вэ? | Pyspark-ийн танилцуулга | Яагаад Pyspark ашиглах вэ? | Эхлэгчдэд зориулсан Pyspark | Хялбар сургах 2024, Арваннэгдүгээр
Anonim

Цуглуулна (Үйлдэл) - Драйвер программ дээр өгөгдлийн багцын бүх элементүүдийг массив болгон буцаана. Энэ нь өгөгдлийн хангалттай бага хэсгийг буцаадаг шүүлтүүр эсвэл бусад үйлдлийн дараа ихэвчлэн хэрэгтэй байдаг.

Ийм байдлаар PySpark гэж юу вэ?

PySpark Програмчлал. PySpark нь Apache Spark болон Python-ийн хамтын ажиллагаа юм. Apache Spark нь хурд, ашиглахад хялбар, урсгалын аналитик дээр суурилсан нээлттэй эхийн кластер тооцоолох систем бөгөөд Python бол ерөнхий зориулалттай, өндөр түвшний програмчлалын хэл юм.

Мөн PySpark дахь газрын зураг гэж юу вэ? Оч Газрын зураг Өөрчлөлт. А газрын зураг нь Apache Spark дахь хувиргах үйл ажиллагаа юм. Энэ нь RDD-ийн элемент бүрт хамаарах бөгөөд үр дүнг шинэ RDD болгон буцаана. Газрын зураг N урттай RDD-г өөр N урттай RDD болгон хувиргадаг. Оролт, гаралтын RDD нь ихэвчлэн ижил тооны бичлэгтэй байх болно.

Ийм байдлаар PySpark дахь SparkContext гэж юу вэ?

PySpark - SparkContext . Зар сурталчилгаа. SparkContext аль нэг рүү орох цэг юм оч функциональ байдал. Бид ямар ч ажиллуулах үед Оч аппликешн, үндсэн функцтэй драйвер програм эхэлнэ SparkContext эндээс санаачилж эхэлдэг. Дараа нь драйвер програм нь ажилчдын зангилаа дээрх гүйцэтгэгчид доторх үйлдлүүдийг гүйцэтгэдэг.

PySpark хувилбарыг хэрхэн шалгах вэ?

2 хариулт

  1. Spark shell терминалыг нээгээд командыг оруулна уу.
  2. sc.version Эсвэл spark-submit --version.
  3. Хамгийн хялбар арга бол командын мөрөнд "spark-shell"-ийг эхлүүлэх явдал юм. Энэ нь харуулах болно.
  4. Spark-ийн одоогийн идэвхтэй хувилбар.

Зөвлөмж болгож буй: