Spark Scala дахь DataFrame гэж юу вэ?
Spark Scala дахь DataFrame гэж юу вэ?

Видео: Spark Scala дахь DataFrame гэж юу вэ?

Видео: Spark Scala дахь DataFrame гэж юу вэ?
Видео: Spark SQL Tutorial | Spark SQL Using Scala | Apache Spark Tutorial For Beginners | Simplilearn 2024, May
Anonim

А Spark DataFrame Агрегатуудыг шүүх, бүлэглэх, тооцоолох үйлдлүүдийг хангадаг нэрлэсэн багана болгон зохион байгуулсан мэдээллийн тархсан цуглуулга бөгөөд дараах байдлаар ашиглаж болно. Оч SQL. DataFrames бүтэцлэгдсэн өгөгдлийн файлууд, одоо байгаа RDD, Hive дахь хүснэгтүүд эсвэл гадаад мэдээллийн сангаас бүтээж болно.

Үүнтэй адилаар та Scala дахь DataFrame гэж юу вэ?

Нэрлэсэн багана болгон зохион байгуулсан мэдээллийн тархсан цуглуулга. А DataFrame нь Spark SQL-ийн харилцааны хүснэгттэй тэнцэнэ. -ээс багана сонгохын тулд өгөгдлийн хүрээ , хэрэглэх аргыг ашиглана уу Скала болон Java хэл дээрх col.

Scala-д lit гэж юу вэ? ( ассан байна ашигласан in Оч literal утгыг шинэ багана болгон хувиргах.) Concat нь баганыг аргумент болгон авдаг тул ассан байх ёстой ашигласан энд.

Дээр дурдсанаас гадна spark дахь RDD болон DataFrame хоёрын ялгаа юу вэ?

Spark RDD APIs - An RDD Resilient Distributed Datasets гэсэн үгийн товчлол. Энэ нь зөвхөн унших боломжтой хуваалтын бүртгэлүүдийн цуглуулга юм. RDD -ийн үндсэн өгөгдлийн бүтэц юм Оч . Spark дахь DataFrame Хөгжүүлэгчид өгөгдлийн тархсан цуглуулгад бүтцийг нэвтрүүлэх боломжийг олгож, дээд түвшний хийсвэрлэх боломжийг олгодог.

Spark дахь Column нь юу хийдэг вэ?

Баганатай оч () функц байна Одоо байгаа DataFrame баганын нэрийг өөрчлөх, утгыг өөрчлөх, өгөгдлийн төрлийг хөрвүүлэх, мөн түүнчлэн чадна шинэ багана үүсгэхэд ашиглагдах болно, энэ нийтлэл дээр, I болно өргөн хэрэглэгддэг DataFrame баганын үйлдлүүдийг танд заах Скала болон Pyspark жишээнүүд.

Зөвлөмж болгож буй: