Back to Question Center
0

Semalt Ekspert: Python və BeautifulSoup. Scrape Saytlar asanlıqla

1 answers:

Məlumat analizini və ya maşın öyrənmə layihələrini həyata keçirərkən, lazım olan məlumatları və layihənizi tamamladı. Python proqramlaşdırma dili bu məqsəd üçün istifadə edilə bilən alətlər və modulların güclü bir kolleksiyasına malikdir. Məsələn, BeautifulSoup modulunu HTML təhlil etmək üçün istifadə edə bilərsiniz.

Burada BeautifulSoup-a nəzər salacağam və bunun nəyə görə geniş yayılmış olduğuna baxın .

BeautifulSoup xüsusiyyətləri

- Bu asan naviqasiya, parse ağacları axtarış və dəyişmək üçün müxtəlif üsullar təmin edir, beləliklə bir sənəd asanlıqla disect və çox çox yazmaq olmadan lazım olan hər şeyi çıxarmaq imkan verir.

- UTF-8 və daxil olan sənədləri avtomatik olaraq Unicode-a çevirir. Bu, sənədin bir kodlaşdırma və ya Gözəl Çorba özünü autodetect edə biləcəyi şərtləri ilə kodlaşdırma mövzusunda narahat olmayacaqsınız.

- BeautifulSoup html5lib və lxml kimi digər məşhur Python ayrıştırıcılarından üstün sayılır. Müxtəlif analizi strategiyalarını sınağa imkan verir. Lakin bu modulun bir dezavantajı sürət hesabına daha çox rahatlıq təmin etməkdir.

BeautifulSoup ilə veb səhifəni necə təmizləmək lazımdır?

BeautifulSoup ilə işə başlamaq üçün, maşınınızda quraşdırılmış Python proqramlaşdırma mühitinə (yerli və ya server əsaslı) ehtiyacınız var. Python, genellikle OS X'de önceden yüklüdür, ancaq Windows'u kullanırsanız, dili rəsmi internet saytından yükləmək və yüklemeniz lazımdır.

BeautifulSoup və Requests modulları quraşdırılmalıdır. Siz web-qaynaqlanan data ilə iş olacaq-ci ildən

Nəhayət, tanış və HTML etiketleme və strukturu ilə iş rahat olan mütləq faydalı.

İstek ve BeautifulSoup kitaplıklarını içe aktarma

Python proqramlaşdırma ortamıyla yaxşı bir şekilde kurulduğunda, artık istədiyiniz bir adla yeni bir fayl (məsələn nano istifadə edərək) yaratmaq.

İstədiyiniz kitabxanalar Python proqramları daxilində insan oxunaqlı bir formada HTTP istifadə edərək, BeautifulSoup daha sürətli bir şəkildə. Hər iki kitabxananı almaq üçün idxal bəyanatından istifadə edə bilərsiniz.

Veb səhifəni necə toplamaq və təhlil etmək

İstəkləri istifadə edin. data çıxarış etmək istədiyiniz veb səhifənin URL'sini toplamaq üçün get

metodunu əldə edin. Sonra bir BeautifulSoup obyekti yaratmaq və ya ağacı ayırmaq. Bu obyekt sənədləri İstəklərdən öz arqumentləri kimi götürür və sonra onu təhlil edir. Toplanan səhifə, ayrıştırılmış və BeautifulSoup obyekti kimi qurulub sonra sizə lazım olan məlumatları yığmağa davam edə bilərsiniz.

Ayrılmış web səhifəsindən istənilən mətn çıxarmaq

Veb məlumatları toplamaq istədiyiniz zaman, bu məlumatların veb səhifənin Document Object Model (DOM). Veb brauzerinizdə faiz məlumatlarının bir hissəsini təşkil edən maddələrdən birində (Windows istifadə edərkən) sağ basın və ya CTRL + klikləyin (macOS istifadə edilərsə). Məsələn, tələbə vətəndaşları haqqında məlumat çıxarmaq istəyirsinizsə, bir tələbənin adlarından birini basın. Kontekst menyusu açılır və onun içərisində Elementi yoxlamaq (Firefox üçün) və ya Inspect (Chrome üçün). Müvafiq Inspect menyusunu basın və veb geliştirici alətləri brauzerinizdə görünəcək.

BeautifulSoup veb səhifələrindən istifadə edərkən sizə çox rahatlıq verən sadə, lakin güclü HTML analiz elementidir.Bunu istifadə edərkən, veb-saytın Şərtlərini və şərtlərini yoxlamaq kimi ümumi qazma qaydalarına əməl etməyi unutmayın; Saytda mütəmadi olaraq saytınıza daxil edilmiş dəyişikliklərə əsasən kodunuzu yeniləmək və yeniləmək. Python və BeautifulSoup ilə web saytlarınızı təmizləmək barədə bu biliklərə malik olmağınızdan asılı olmayaraq, layihəniz üçün lazım olan web məlumatlarını asanlıqla əldə edə bilərsiniz.

December 22, 2017
Semalt Ekspert: Python və BeautifulSoup. Scrape Saytlar asanlıqla
Reply