Агуулгын хүснэгт:

Би жагсаалтаас PySpark DataFrame-г хэрхэн хийх вэ?
Би жагсаалтаас PySpark DataFrame-г хэрхэн хийх вэ?

Видео: Би жагсаалтаас PySpark DataFrame-г хэрхэн хийх вэ?

Видео: Би жагсаалтаас PySpark DataFrame-г хэрхэн хийх вэ?
Видео: Data Science with Python! Analyzing File Types from Avro to Stata 2024, May
Anonim

Толгууруудын жагсаалтаас DataFrame үүсгэхийн тулд би дараах алхмуудыг хийж байна:

  1. Үүсгэх а жагсаалт tuples. Tuple бүр нь насны хүний нэрийг агуулдаг.
  2. Үүсгэх -аас RDD жагсаалт дээрх.
  3. Хөрвүүлэх товхимол бүрийг эгнээ болгон.
  4. Үүсгэх а DataFrame sqlContext-ийн тусламжтайгаар RDD дээр createDataFrame-ийг хэрэглэснээр.

Үүнийг анхаарч үзвэл, та DataFrame-г Python дээр хэрхэн жагсаалт руу хөрвүүлэх вэ?

  1. Алхам 1: DataFrame.to_numpy() ашиглан Dataframe-г үүрлэсэн Numpy массив болгон хөрвүүлэх, өөрөөр хэлбэл,
  2. Алхам 2: 2D Numpy массивыг жагсаалтын жагсаалт болгон хөрвүүлэх.
  3. Алхам 1: Мөрүүдийг багана, баганыг мөр болгон хөрвүүлэхийн тулд дата фреймийг шилжүүл.
  4. Алхам 2: DataFrame.to_numpy()-г ашиглан Dataframe-г үүрлэсэн Numpy массив болгон хөрвүүлнэ үү.

Нэмж хэлэхэд, spark DataFrame гэж юу вэ? А Spark DataFrame Агрегатуудыг шүүх, бүлэглэх, тооцоолох үйлдлүүдийг хангадаг нэрлэсэн багана болгон зохион байгуулсан мэдээллийн тархсан цуглуулга бөгөөд дараах байдлаар ашиглаж болно. Оч SQL. DataFrames бүтэцлэгдсэн өгөгдлийн файлууд, одоо байгаа RDD, Hive дахь хүснэгтүүд эсвэл гадаад мэдээллийн сангаас бүтээж болно.

Мөн PySpark SQL гэж юу болохыг мэдэх үү?

Spark SQL нь Оч бүтэцлэгдсэн өгөгдөл боловсруулах модуль. Энэ нь DataFrames хэмээх программчлалын хийсвэрлэлээр хангадаг бөгөөд түгээлтийн үүрэг гүйцэтгэдэг SQL асуулгын хөдөлгүүр. Энэ нь өөрчлөгдөөгүй Hadoop Hive асуулгад одоо байгаа байршуулалт болон өгөгдөл дээр 100 дахин хурдан ажиллах боломжийг олгодог.

Spark DataFrames өөрчлөгддөггүй юу?

онд Оч чи чадахгүй - DataFrames байна хувиршгүй . Та ашиглах ёстой.

Зөвлөмж болгож буй: