Агуулгын хүснэгт:

Би Hadoop дээр Python ажиллуулж болох уу?
Би Hadoop дээр Python ажиллуулж болох уу?

Видео: Би Hadoop дээр Python ажиллуулж болох уу?

Видео: Би Hadoop дээр Python ажиллуулж болох уу?
Видео: Data Science with Python! Analyzing File Types from Avro to Stata 2024, May
Anonim

Java, Scala болон програмчлалын хэлнүүдийн хооронд сонголт хийх боломжтой Python төлөө Hadoop ихэнх хөгжүүлэгчид ашигладаг экосистем Python Учир нь өгөгдлийн аналитик даалгаврын сангуудыг дэмждэг. Hadoop урсгал нь хэрэглэгч үүсгэх болон гүйцэтгэх Газрын зураг/багасгах ажлыг дурын скрипт эсвэл зураглагч болон/болон бууруулагчаар гүйцэтгэх боломжтой.

Үүнтэй адилаар, Python хэрхэн Hadoop-той холбогддог вэ?

Hadoop HDFS-ийг Python-той холбож байна

  1. Алхам 1: Hadoop HDFS зөв ажиллаж байгаа эсэхийг шалгаарай. Терминал/Тушаалын мөрийг нээгээд HDFS ажиллаж байгаа эсэхийг дараах тушаалуудыг ашиглан шалгана уу: start-dfs.sh.
  2. Алхам 2: libhdfs3 номын санг суулгана уу.
  3. Алхам 3: hdfs3 номын санг суулгана уу.
  4. Алхам 4: HDFS-тэй холболт амжилттай болсон эсэхийг шалгана уу.

Үүнтэй адилаар Python-д Hadoop гэж юу вэ? Python нь програмчлалын ертөнцөд бараг бүх зүйлийг хийхэд ашиглаж болох ерөнхий зориулалтын бүрэн програмчлалын хэл юм. Hadoop асар их хэмжээний өгөгдөлтэй ажиллахын тулд Java хэл дээр бичигдсэн том өгөгдлийн хүрээ юм. Олон тооны онлайн институтууд байдаг Hadoop хамт Python зэрэг курсууд: Analytixlabs. Эдурика.

Дараа нь асуулт бол би Python MapReduce програмыг Hadoop дээр хэрхэн ажиллуулах вэ?

Python дээр Hadoop MapReduce програм бичих

  1. Урам зориг.
  2. Бид юу хийхийг хүсч байна.
  3. Урьдчилсан нөхцөл.
  4. Python MapReduce код. Газрын зургийн алхам: mapper.py. Алхамыг багасгах: reductor.py.
  5. Hadoop дээр Python кодыг ажиллуулж байна. Жишээ оруулах өгөгдлийг татаж авах. Орон нутгийн жишээ өгөгдлийг HDFS рүү хуулах.
  6. Сайжруулсан Mapper болон Reducer код: Python давталт болон генераторыг ашиглах. mapper.py. бууруулагч.py.

Hadoop Streaming сав гэж юу вэ?

Hadoop түгээлт нь Java хэрэгслийг өгдөг Hadoop урсгал . Энэ нь савласан байна сав файл. -тай Hadoop урсгал , бид гүйцэтгэгдэх скриптээр Map Reduce ажлуудыг үүсгэж ажиллуулж болно. Hadoop урсгал -тэй хамт ирдэг хэрэгсэл юм Hadoop хуваарилалт. Үүнийг том өгөгдлийн шинжилгээнд зориулсан програмуудыг ажиллуулахад ашиглаж болно.

Зөвлөмж болгож буй: