Back to Question Center
0

Semalt - Hvordan Skrape Websider?

1 answers:

Vakker suppe er et Python-bibliotek som ofte brukes til å skrape nettsider ved å lage et parsetrær fra XML og HTML-dokumenter. Nettskraping, en teknikk for å utvinne data fra nettsteder og sider, brukes mye i dataanalyse og ledelsesfelt. I de fleste tilfeller er Python programmeringsspråk en forutsetning for datavitenskap.

Python 3 har skrapverktøy og moduler du kan søke på data management prosjektet - evic vt ego one mega. For tiden kjører som Beautiful Soup 4, er denne modulen kompatibel med både Python 3 og Python 2. 7. Beautiful Soup 4-modulen er også i stand til å lage et parsetre for ikke-lukket merkesuppe. I denne veiledningen lærer du hvordan du skal skrape siden og skrive de skrapede dataene til en CSV-fil.

Komme i gang

For å komme i gang, sett opp en server eller lokalbasert Python-kodemiljø på PCen. Du bør også installere Beautiful Soup and Requests-modulen på maskinen din. Kunnskaper om å jobbe med begge modulene er også en nødvendig forutsetning. Kjennskap til HTML-merking og struktur er også en ekstra fordel.

Forstå dine data

I denne sammenhengen vil virkelige data fra National Gallery of Art brukes til å hjelpe deg å forstå hvordan du bruker Beautiful Soup 4. National Gallery of Art består av 120.000 stykker som er utført av omtrent 13.000 artister. Kunsten er basert i Washington D. C, USA.

Web data utvinning med Beautiful Soup er ikke så komplisert. Hvis du for eksempel fokuserer på bokstav Z, merk og skriv ned fornavnet på listen. I dette tilfellet er fornavnet Zabaglia, Niccola. For konsistens, angi antall sider og navnet på den siste artisten på den siden.

Slik importerer du forespørsler og vakre suppebibliotek

For å importere biblioteker, aktiver du Python 3 programmeringsmiljøet. Kontroller at du er i samme katalog med programmeringsmiljøet ditt. Kjør følgende kommando for å komme i gang. my_env / bin / deaktivere.

Opprett en ny fil og begynn å importere vakre supper og forespørsler biblioteker. Forespørsler biblioteket vil tillate deg å bruke HTTP i Python programmer i lesbare formater. Beautiful Soup, derimot, arbeider for å skrape sider raskt. Bruk bs4 til å importere vakker suppe.

Slik samler og analyserer du en nettside

Bruk av forespørsler samler URL til din første side. Nettadressen til den første siden vil bli tilordnet til variabilsiden. Bygg et BeautifulSoup-objekt fra Forespørsler og analyser objektet fra Pythons parser.

I denne opplæringen er målet å samle inn koblinger og kunstnerens navn. For eksempel kan du samle artisters datoer og nasjonaliteter. For Windows-brukere, høyreklikk på artistens fornavn. I dette tilfellet, bruk Zabaglia, Niccola. For Mac OS-brukere klikker du på "CTRL" og klikker på navnet. Klikk på "Inspiser element" -menyen som popup-vinduer på skjermen for å få tilgang til webutvikleres verktøy. Skriv ut artistens navn for å få Beautiful Soup til å analysere et tre raskt.

Fjern de nederste koblingene

For å fjerne de nederste koblingene på nettsiden din, kontroller DOM ved å høyreklikke elementet. Du vil identifisere at koblingene er under et HTML-tabell. Bruk "Beautiful Soup" ved å bruke "dekomponeringsmetoden" for å fjerne koder fra analysetreet.

Slik trekker du innhold fra en tagg

Du trenger ikke å skrive ut hele koblingsmerket, bruk Beautiful Soup for å fjerne materiale fra en tagg. Du kan også ta opp nettadresser tilknyttet kunstnerne ved å bruke Beautiful Soup 4.

Fange skrapede data til en CSV-fil

CSV-filen tillater deg å lagre strukturerte data i en ren tekst, et format som hovedsakelig brukes til dataark. Kunnskap om håndtering av vanlige tekstfiler i Python anbefales.

Web data utvinning brukes til å skrape sider og få informasjon. Vær hensynsfull på nettstedene du er utvinningsinformasjon fra. Noen dynamiske nettsteder begrenser webdatautvinning på deres nettsteder. Å skrape siden med Beautiful Soup og Python 3 er så enkelt.

December 22, 2017