Semalt: HTML gözlemek boýunça gollanma - Iň ýokary maslahatlar

Web mazmuny esasan gurluşly ýa-da HTML formatlarynda. Her sahypa, içindäki mazmuna baglylykda özboluşly tertipde tertiplenýär. Kimdir biri web maglumatyny almak islese, maglumatlary gurluşly we tertipli almak her bir adamyň islegidir. Bu resminamany paýlaşmazdan ozal gözden geçirmek, derňemek we tertiplemek üçin zerur wagty tygşytlamaga kömek eder. Şeýle-de bolsa, gurluşly formaty almak aňsat däl, sebäbi web sahypalarynyň köpüsi adamlaryň köp mukdarda maglumat almagynyň öňüni almak üçin bu mümkinçiligi teklip etmeýär. Käbir saýtlar, adamlara çalt we aňsat işde maglumat çykarmak mümkinçiligini berýän API-ler bilen üpjün edýär.

Şeýle wakalarda, döwmek diýlip atlandyrylýan programma üpjünçiliginiň kömegi bilen ulanmakdan başga alaç galmaz. Ulanyjylara peýdaly formatda maglumat ýygnamaga we maglumatlaryň gurluşyny goramaga kömek edýän kompýuter programmasyny ulanýan çemeleşme.

Lxml we haýyş

Bu, XML we HTML çalt derňemäge we baha bermäge kömek edýän we wagt tygşytlamaga kömek edýän giň gerimli kitaphanadyr. Derňew işinde bulaşyk bellikler bilen iş salyşmakda hem peýdalydyr. Bu amalda, gurlan urllib2 däl-de, Lxml haýyşlaryny ulanýarsyňyz, sebäbi has çalt, ygtybarly we aňsat. Turbany gurmak Lxml we turba gurnamak haýyşlaryny ulanyp gurmak aňsat.

HTML gözlemek üçin şu ädimleri ýerine ýetiriň

Importdan başlaň - bu ýerde HTML-ni Lxml-den import edýärsiňiz, soňra haýyşy import ediň. Talapdan peýdalanyň, soňra çykarmak isleýän maglumatlaryňyzy öz içine alýan web sahypasyny yzarlaň, HTML moduly bilen derňäň we soňra jikme-jik maglumatlary agaçda saklaň.

Sahypanyň mazmunyny tekst däl-de ulanmaly bolarsyňyz, sebäbi HTML baýtda giriş almagyna garaşýar. Derňelýän maglumatlaryňyzy saklan agaç, agaç gurluşynda HTML resminamasyny öz içine alýar. Dürli çemeleşmelerde, XPath we CSSelect-de agaç gurluşyna geçip bilersiňiz.

XPath size maglumatlary almaga ýa-da HTML ýa-da XML ýaly gurluşly formatda almaga kömek edýär. XPath elementlerini almagyň dürli ýollary bar. Bularyň arasynda Firefox ýa-da Chrome inspektory üçin Firebug bar. “Chrome” ulanylanda, maglumatlary barlamak aňsat, sebäbi diňe gözden geçirmegi talap edýän elementi “sag” basmaly, “Elementi barla” -ny saýlaň, berlen kody belläň, soňra sag basyň we XPath göçürmesini saýlaň. Bu amal sahypaňyzda haýsy elementleriň bardygyny bilmäge kömek eder we şol ýerden dogry XPath talapyny döretmek we Lxml XPath-y dogry ulanmak aňsat.

Bu ädimleri geçmek, Lxml we Talaplary ulanyp, belli bir webden çykarmak isleýän maglumatlaryňyzyň hemmesini ýok edendigiňizi üpjün edýär. Iki sanaw ýadynda saklanjak maglumatlaryňyz bolar, indi bolsa tertiplemäge taýyn. Python ýaly programmirleme dilini ulanyp analiz edip ýa-da ýatda saklap we paýlaşyp bilersiňiz. Şeýle hem, maglumatlary paýlaşmazdan ozal käbir bölümleri täzeden ýazmak ýa-da redaktirlemek isläp bilersiňiz.

mass gmail