Semalt: HTML skafahandbókin - Helstu ráð

Vefefni er að mestu leyti með skipulögðu eða HTML sniði. Hver blaðsíða er skipulögð á sinn einstaka hátt eftir því hvers konar innihald er í henni. Ef einhver vill draga upplýsingar úr vefnum er það ósk hvers og eins að afla gagna á skipulagðan og vel skipulagðan hátt. Þetta hjálpar til við að spara tímann sem þarf til að skoða, greina og skipuleggja skjalið áður en það er deilt. Hins vegar er ekki auðvelt að fá skipulögð snið þar sem flestar vefsíður bjóða ekki upp á þann möguleika til að koma í veg fyrir að fólk dragi mikið magn af gögnum. Sumar síður bjóða hins vegar API sem veitir fólki möguleika á útdrátti upplýsinga á fljótlegan og auðveldan hátt.

Í slíkum atburðum muntu ekki hafa annað val en að nota hjálp hugbúnaðarforritunar sem kallast skrap. Þetta er aðferð sem notar tölvuforrit sem hjálpar notendum að safna upplýsingum á gagnlegt snið og varðveita uppbyggingu gagna.

Lxml og beiðni

Þetta er víðtækt skrapasafn sem hjálpar til við að greina og meta XML og HTML hratt og hjálpar til við að spara tíma. Það er einnig gagnlegt við að takast á við klúðraðir merkjum við greiningarferlið. Í þessari aðferð notarðu Lxml beiðnir frekar en innbyggða urllib2 þar sem hún er hraðvirkari, öflugri og aðgengilegur. Það er auðvelt að setja það upp með því að nota pip install Lxml og pip install beiðnir.

Fylgdu þessum skrefum fyrir skafa HTML

Byrjaðu á því að flytja inn - hér flytur þú inn HTML frá Lxml og síðan innflutningsbeiðni. Notaðu beiðni og raktu síðan vefsíðuna sem inniheldur gögnin sem þú vilt vinna úr, greina þau með HTML mát og vistaðu síðan sundurliðaða gögnin í trénu.

Þú verður að nota innihald síðunnar frekar en texta þar sem HTML gerir ráð fyrir að fá inntakið í bæti. Tréð, þar sem þú vistaðir greindu gögnin þín, inniheldur nú HTML skjalið í trébyggingu. Þú getur farið yfir trébygginguna með mismunandi aðferðum, XPath og CSSelect.

XPath hjálpar þér að sækja upplýsingar eða afla þeirra með skipulögðu sniði eins og HTML eða XML. Það eru ýmsar leiðir sem þú getur fengið XPath þætti. Má þar nefna Firebug fyrir Firefox eða Chrome Inspector. Þegar Chrome er notað er skoðun upplýsinga auðveld þar sem þú þarft aðeins að „hægrismella“ á þáttinn sem þarfnast skoðunar, veldu „Skoðaðu frumefni“, auðkenndu kóðann sem fylgir og síðan hægrismellir og veldu copy XPath. Þetta ferli hjálpar þér að vita hvaða þættir eru á síðunni þinni og þaðan er auðvelt að búa til rétta XPath fyrirspurn og beita Lxml XPath rétt.

Með því að fara í gegnum þessi skref tryggirðu að þú hafir skafið öll gögnin sem þú vildir vinna úr tilteknum vef með Lxml og Requests. Upplýsingarnar eru geymdar í tveggja lista minni og nú eru þær tilbúnar til flokkunar. Þú getur greint það með forritunarmáli eins og Python eða vistað það og deilt því. Einnig gætirðu viljað umrita eða breyta nokkrum hlutum upplýsinganna áður en þú deilir þeim.