Видео: Том өгөгдөлд өгөгдөл шингээх гэж юу вэ?
2024 Зохиолч: Lynn Donovan | [email protected]. Хамгийн сүүлд өөрчлөгдсөн: 2023-12-15 23:50
Өгөгдөл залгих олж авах, импортлох үйл явц юм өгөгдөл өгөгдлийн санд шууд ашиглах эсвэл хадгалах зориулалттай. Аливаа зүйлийг залгих гэдэг нь "ямар нэгэн зүйлийг авах, шингээх" гэсэн үг юм. Өгөгдөл бодит цаг хугацаанд нь дамжуулж болно, эсвэл залгисан багцаар.
Мэдээлэл дамжуулах хоолой гэж юу вэ?
Мэдээлэл залгих дамжуулах хоолой . А өгөгдөл дамжуулах хоолой урсгалыг хөдөлгөдөг өгөгдөл ба багцалсан өгөгдөл өмнөх мэдээллийн сангаас болон өгөгдөл агуулахуудыг a өгөгдөл нуур. HDFS дээр суурилсан өгөгдөл нуур, Кафка, Hive, Spark гэх мэт хэрэгслийг ашигладаг өгөгдөл залгих . Кафка бол алдартай өгөгдөл залгих урсгалыг дэмждэг хэрэгсэл өгөгдөл.
Цаашилбал, Hadoop хэрхэн өгөгдлийг залгидаг вэ? Hadoop нь том файлуудыг унших, бичихэд оновчтой хуваарилагдсан файлын системийг ашигладаг. руу бичих үед HDFS , өгөгдөл "хэрчсэн" бөгөөд a-д серверүүдээр хуулбарлагддаг Hadoop бөөгнөрөл. Зүсэх процесс нь том файлын олон жижиг дэд нэгжүүдийг (блок) үүсгэж, тэдгээрийг кластерын зангилаа руу ил тод бичдэг.
Хоёрдугаарт, өгөгдөл дамжуулах хэрэгсэл гэж юу вэ?
Өгөгдөл хүлээн авах хэрэгслүүд компаниудад цуглуулах, импортлох, ачих, шилжүүлэх, нэгтгэх, боловсруулах боломжийг олгодог тогтолцоог бий болгох өгөгдөл өргөн хүрээнээс өгөгдөл эх сурвалжууд. Тэд хөнгөвчлөх өгөгдөл олборлох үйл явцыг дэмжих замаар төрөл бүрийн өгөгдөл тээврийн протоколууд.
Өгөгдөл хүлээн авах, нэгтгэх талаар та ямар ойлголттой байна вэ?
Өгөгдөл залгих байна нь үйл явц өгөгдөл шингээх нэг системээс нөгөө систем рүү. Өгөгдлийн интеграци ялгаатай боломжийг олгодог өгөгдөл төрөл (жишээ нь өгөгдөл багц, баримт бичиг, хүснэгтүүд) нэгтгэж, хувийн болон бизнесийн үйл явцын програмуудад ашиглах.
Зөвлөмж болгож буй:
Java том өгөгдөлд чухал уу?
Хүчтэй бичдэг. Java нь төрлийн аюулгүй байдлын талаар маш их санаа тавьдаг. Энэ функц нь Big Data програмуудыг хөгжүүлэх, Java хэл дээрх өгөгдлийн шинжлэх ухааныг боловсруулахад чухал ач холбогдолтой юм. Java бол өндөр бүтээмжтэй (ETL) код бичихэд ашигладаг өндөр үр дүнтэй эмхэтгэсэн хэл бөгөөд машин сургалтын алгоритмууд юм
Яагаад багана руу чиглэсэн өгөгдөл хадгалах нь мөр рүү чиглэсэн мэдээллийн сангаас илүү хурдан дискэн дээрх өгөгдөлд хандах боломжийг олгодог вэ?
Өгөгдлийн формат (баганын формат) нь хайлтыг хурдан боловсруулах, скан хийх, нэгтгэх гэх мэт боломжийг олгодог тул баганад чиглэсэн мэдээллийн сангууд (багануур өгөгдлийн сан) нь аналитик ажлын ачаалалд илүү тохиромжтой байдаг. Нөгөө талаас, мөр рүү чиглэсэн мэдээллийн сан нь нэг мөрийг (мөн түүний бүх мэдээллийг) хадгалдаг. багана) зэрэгцүүлэн байрлуулна
Том өгөгдөлд Импала гэж юу вэ?
Impala бол Apache Hadoop гэх мэт кластер системүүдийн дээр байрладаг нээлттэй эх сурвалж бүхий асар их зэрэгцээ боловсруулалтын асуулгын систем юм. Үүнийг Google-ийн Dremel цаасан дээр үндэслэн бүтээсэн. Энэ нь Hadoop Distributed File System (HDFS) дээр ажилладаг асуулгын системтэй адил интерактив SQL юм. Impala нь HDFS-ийг үндсэн хадгалалт болгон ашигладаг
Том өгөгдөлд ашиглах тохиолдол гэж юу вэ?
Хэдийгээр том өгөгдөл ашиглах тохиолдлын дийлэнх нь өгөгдөл хадгалах, боловсруулахтай холбоотой байдаг ч үйлчлүүлэгчийн дүн шинжилгээ, эрсдэлийн үнэлгээ, залилан илрүүлэх зэрэг бизнесийн олон талыг хамардаг. Тиймээс бизнес бүр өөрийн хэрэгцээг хангахын тулд холбогдох хэрэглээний тохиолдлыг олох боломжтой
R-ийн аналитик нь том өгөгдөлд хэр тохиромжтой вэ?
R нь олон тооны өгөгдлийн багц, тавиурын график функц гэх мэтийг агуулдаг бөгөөд энэ нь өгөгдөл боловсруулах үр дүнтэй чадвартай тул том өгөгдлийн аналитикийн чадварлаг хэл болохыг баталж байна. Майкрософт, Google зэрэг технологийн аварга том өгөгдлийн шинжилгээнд R ашиглаж байна