Python дээр Gensim гэж юу вэ?
Python дээр Gensim гэж юу вэ?

Видео: Python дээр Gensim гэж юу вэ?

Видео: Python дээр Gensim гэж юу вэ?
Видео: NLP with Python! Bag of Words (BoW) 2024, Арваннэгдүгээр
Anonim

Гэнсим нь орчин үеийн статистикийн машин сургалтыг ашиглан хараа хяналтгүй сэдвийг загварчлах, байгалийн хэлээр боловсруулах нээлттэй эхийн номын сан юм. Гэнсим онд хэрэгжиж байна Python болон Cython.

Үүнийг анхаарч үзвэл Gensim Word2Vec гэж юу вэ?

1. Танилцуулга Word2vec . Word2vec нь хоёр давхаргат мэдрэлийн сүлжээг ашиглан үг оруулахыг сурах хамгийн түгээмэл аргуудын нэг юм. Түүний оролт нь текст корпус бөгөөд гаралт нь векторуудын багц юм. Сургалтын хоёр үндсэн алгоритм байдаг word2vec , нэг нь үргэлжилсэн үгийн баг (CBOW), нөгөөг нь skip-gram гэж нэрлэдэг.

Нэмж хэлэхэд, Gensim-ийн хураангуйлал хэрхэн ажилладаг вэ? Хичээл: автомат хураангуй ашиглах Гэнсим . Энэ модуль нь текстээс нэг буюу хэд хэдэн чухал өгүүлбэрийг задлах замаар өгөгдсөн текстийг автоматаар нэгтгэдэг. Үүнтэй адилаар, тэр чадна мөн түлхүүр үгсийг задлах.

Дараа нь би Gensim-ийг Python руу хэрхэн оруулах вэ гэж асууж магадгүй юм.

5 хариулт. Эхлээд та NumPy, дараа нь SciPy, дараа нь суулгах хэрэгтэй Гэнсим (та аль хэдийн байгаа гэж үзвэл Python суулгасан). би хэрэглэсэн Python 3.4 хувилбарыг ашиглан SciPy-г суулгахад илүү хялбар санагдаж байна. ТАЙЛБАР: Таны орчны хувьсагчид pip байгаа эсэхийг шалгаарай (орчны хувьсагчдаа C:python34scripts нэмнэ үү).

Gensim корпус гэж юу вэ?

Ажиллахын тулд та дараах чухал объекттой танилцах хэрэгтэй gensim нь Корпус (Үгийн уут). Энэ нь а корпус Баримт бичиг бүрт id үг болон түүний давтамжийг агуулсан объект. Та үүнийг гэж бодож болно gensim-ийн Баримт бичгийн хугацааны матрицтай тэнцэх.

Зөвлөмж болгож буй: