Видео: AWS MapReduce гэж юу вэ?
2024 Зохиолч: Lynn Donovan | [email protected]. Хамгийн сүүлд өөрчлөгдсөн: 2023-12-15 23:50
Амазон уян харимхай MapReduce (EMR) нь Amazon Web Services ( AWS ) том өгөгдөл боловсруулах, дүн шинжилгээ хийх хэрэгсэл. Amazon EMR нь Amazon Elastic Compute Cloud (EC2) болон Amazon Simple Storage Service (S3) дээрх виртуал серверүүдийн Hadoop кластерт том өгөгдлийг боловсруулдаг.
Ийм байдлаар AWS EMR хэрхэн ажилладаг вэ?
Энэ үйлчилгээ нь нэг мастер болон бусад олон зангилаанаас бүрдэх Amazon EC2-ийн хэрэглэгчийн тодорхойлсон тооны тооны инстанцуудыг эхлүүлдэг. Амазон EMR Эдгээр тохиолдлууд дээр Hadoop программ хангамжийг ажиллуулдаг. Мастер зангилаа нь оролтын өгөгдлийг блок болгон хувааж, блокуудын боловсруулалтыг бусад зангилаа руу хуваарилдаг.
Дээрхээс гадна ec2 ба EMR хоёрын ялгаа юу вэ? Дургүй EMR , EC2 боол зангилаануудыг үндсэн болон ажлын зангилаа гэж ангилдаггүй. Энэ нь зангилаа устгагдсан/алдагдсан тохиолдолд HDFS өгөгдлийг алдах эрсдэлийг нэмэгдүүлдэг. EC2 s3 дээрх өгөгдөлд хандахын тулд Apache номын сангуудыг (s3a) ашигладаг. Нөгөө талаар, EMR s3-д илүү хурдан хандахын тулд AWS өмчийн кодыг ашигладаг.
Үүнээс гадна, AWS EMR нь бүрэн удирддаг уу?
Амазон Уян хатан газрын зураг бууруулах ( EMR ) нь бүрэн удирддаг Hadoop болон Spark платформоос Амазон Вэб үйлчилгээ ( AWS ). -тай EMR , AWS Үйлчлүүлэгчид том өгөгдлийн ачааллыг боловсруулахын тулд олон зангилаа Hadoop кластеруудыг хурдан эргүүлэх боломжтой.
AWS нь Hadoop ашигладаг уу?
Амазон Вэб үйлчилгээ ашигладаг нээлттэй эхийн Apache Hadoop мэдээлэл их шаарддаг ажлуудыг гүйцэтгэхийн тулд их хэмжээний тооцоолох хүчин чадалд хандахад хялбар болгох үүднээс тархсан тооцоолох технологи. Hadoop , Google-ийн MapReduce-ийн нээлттэй эхийн хувилбарыг Yahoo, Facebook зэрэг компаниуд аль хэдийн ашиглаж байна.
Зөвлөмж болгож буй:
MapReduce-ийн ажлыг яаж устгах вэ?
Hadoop job -kill job_id болон yarn application -kill application_id командыг хоёуланг нь Hadoop дээр ажиллаж байгаа ажлыг устгахад ашигладаг. Хэрэв та MapReduce Version1(MR V1) ашиглаж байгаа бөгөөд Hadoop дээр ажиллаж байгаа ажлыг устгахыг хүсвэл hadoop job -kill job_id-г ашиглан ажлыг устгах боломжтой бөгөөд энэ нь бүх ажлыг устгах болно (ажиллаж байгаа болон дараалалд байгаа)
Холбогдох алгебрыг зохих жишээн дээр тайлбарлах гэж та юу гэж ойлгож байна вэ?
Relational Algebra нь янз бүрийн аргаар өгөгдөлд хандахын тулд өгөгдлийн сангийн хүснэгтээс асуулга хийхэд ашигладаг процедурын хайлтын хэл юм. Харьцааны алгебрийн хувьд оролт нь хамаарал (өгөгдөлд хандах шаардлагатай хүснэгт) бөгөөд гаралт нь мөн хамаарал (хэрэглэгчийн хүссэн өгөгдлийг агуулсан түр хүснэгт) юм
MapReduce програмчлалын загвар гэж юу вэ?
MapReduce. Википедиа, чөлөөт нэвтэрхий толь. MapReduce нь кластер дээр параллель, тархсан алгоритм бүхий том өгөгдлийн багцыг боловсруулах, үүсгэхэд зориулагдсан програмчлалын загвар бөгөөд холбогдох хэрэгжилт юм
MapReduce ажлыг ажиллуулахын тулд хэрэглэгч ямар үндсэн тохиргооны параметрүүдийг зааж өгөх ёстой вэ?
Хэрэглэгчдийн “MapReduce” хүрээнд зааж өгөх ёстой үндсэн тохиргооны параметрүүд нь: Түгээмэл файлын систем дэх ажлын оролтын байршил. Тархагдсан файлын систем дэх ажлын гаралтын байршил. Өгөгдлийн оролтын формат. Өгөгдлийн гаралтын формат. Газрын зургийн функцийг агуулсан анги. Бууруулах функц агуулсан анги
Amazon Elastic MapReduce-ийн ард ямар өгөгдөл боловсруулах хөдөлгүүр байдаг вэ?
Amazon EMR нь Apache Hadoop-ийг тархсан өгөгдөл боловсруулах хөдөлгүүр болгон ашигладаг. Hadoop бол өргөн хэрэглээний техник хангамжийн кластерууд дээр ажилладаг өгөгдөл их шаарддаг тархсан програмуудыг дэмждэг нээлттэй эхийн Java програм хангамжийн хүрээ юм