Видео: Spark Scala дахь DataFrame гэж юу вэ?
2024 Зохиолч: Lynn Donovan | [email protected]. Хамгийн сүүлд өөрчлөгдсөн: 2023-12-15 23:51
А Spark DataFrame Агрегатуудыг шүүх, бүлэглэх, тооцоолох үйлдлүүдийг хангадаг нэрлэсэн багана болгон зохион байгуулсан мэдээллийн тархсан цуглуулга бөгөөд дараах байдлаар ашиглаж болно. Оч SQL. DataFrames бүтэцлэгдсэн өгөгдлийн файлууд, одоо байгаа RDD, Hive дахь хүснэгтүүд эсвэл гадаад мэдээллийн сангаас бүтээж болно.
Үүнтэй адилаар та Scala дахь DataFrame гэж юу вэ?
Нэрлэсэн багана болгон зохион байгуулсан мэдээллийн тархсан цуглуулга. А DataFrame нь Spark SQL-ийн харилцааны хүснэгттэй тэнцэнэ. -ээс багана сонгохын тулд өгөгдлийн хүрээ , хэрэглэх аргыг ашиглана уу Скала болон Java хэл дээрх col.
Scala-д lit гэж юу вэ? ( ассан байна ашигласан in Оч literal утгыг шинэ багана болгон хувиргах.) Concat нь баганыг аргумент болгон авдаг тул ассан байх ёстой ашигласан энд.
Дээр дурдсанаас гадна spark дахь RDD болон DataFrame хоёрын ялгаа юу вэ?
Spark RDD APIs - An RDD Resilient Distributed Datasets гэсэн үгийн товчлол. Энэ нь зөвхөн унших боломжтой хуваалтын бүртгэлүүдийн цуглуулга юм. RDD -ийн үндсэн өгөгдлийн бүтэц юм Оч . Spark дахь DataFrame Хөгжүүлэгчид өгөгдлийн тархсан цуглуулгад бүтцийг нэвтрүүлэх боломжийг олгож, дээд түвшний хийсвэрлэх боломжийг олгодог.
Spark дахь Column нь юу хийдэг вэ?
Баганатай оч () функц байна Одоо байгаа DataFrame баганын нэрийг өөрчлөх, утгыг өөрчлөх, өгөгдлийн төрлийг хөрвүүлэх, мөн түүнчлэн чадна шинэ багана үүсгэхэд ашиглагдах болно, энэ нийтлэл дээр, I болно өргөн хэрэглэгддэг DataFrame баганын үйлдлүүдийг танд заах Скала болон Pyspark жишээнүүд.
Зөвлөмж болгож буй:
Entity Framework дахь зураглал гэж юу вэ?
Entity Framework. Энэ нь мэдээллийн санд хандах хэрэгсэл юм. Илүү нарийвчлалтай хэлэхэд, энэ нь Объект/Харилцааны Mapper (ORM) гэж ангилагдсан бөгөөд энэ нь хамаарлын өгөгдлийн сан дахь өгөгдлийг манай хэрэглээний объектуудад буулгадаг гэсэн үг юм
MAP side join in spark гэж юу вэ?
Газрын зургийн хажуугийн нэгдэл нь хоёр хүснэгтийн хоорондох холболтыг Газрын зургийн үе шатанд Reduce үе шатыг оролцуулалгүйгээр гүйцэтгэдэг процесс юм. Map-side Joins нь хүснэгтийг санах ойд ачаалах боломжийг олгодог бөгөөд энэ нь газрын зураг болон үе шатыг багасгах шаардлагагүйгээр бүхэлд нь зурагчны дотор гүйцэтгэгдэнэ
DataFrame Loc гэж юу вэ?
Pandas DataFrame: loc() функц loc() функц нь мөр, баганын бүлэгт шошго(ууд) эсвэл логик массиваар хандахад ашиглагддаг.. loc[] нь үндсэндээ шошго дээр суурилдаг боловч логик массивтай хамт ашиглагдаж болно. . Зүссэн тэнхлэгтэй ижил урттай логик массив, жишээ нь. [Үнэн, худал, үнэн]
DataFrame объект гэж юу вэ?
DataFrame. DataFrame нь өөр өөр төрлийн багана бүхий 2 хэмжээст шошготой өгөгдлийн бүтэц юм. Та үүнийг хүснэгт эсвэл SQL хүснэгт эсвэл Цуврал объектуудын dict гэх мэтээр төсөөлж болно. Энэ нь ерөнхийдөө пандагийн хамгийн түгээмэл объект юм
Scala-д => гэж юу гэсэн үг вэ?
=> нь функцүүдийн жишээ үүсгэх синтакс сахар юм. Скала дахь функц бүр ангийн жишээ гэдгийг санаарай. Жишээлбэл, Int => String төрөл нь Function1[Int,String] төрөлтэй тэнцүү, өөрөөр хэлбэл Int төрлийн аргумент авч, String буцаадаг функц юм