Přihlášení na webové stránky pomocí Pythonu

Logging Into Websites With Python



Přihlašovací funkce je důležitou funkcí dnešních webových aplikací. Tato funkce pomáhá uchovat speciální obsah od uživatelů, kteří na webu nejsou, a používá se také k identifikaci prémiových uživatelů. Pokud tedy hodláte web seškrabat, mohli byste narazit na přihlašovací funkci, pokud je obsah k dispozici pouze registrovaným uživatelům.

V minulosti byly popsány výukové programy pro škrábání webu, a proto tento návod pokrývá pouze aspekt získání přístupu na webové stránky přihlášením pomocí kódu místo manuálního použití pomocí prohlížeče.







Chcete -li porozumět tomuto tutoriálu a umět psát skripty pro přihlášení na webové stránky, budete potřebovat určité znalosti HTML. Možná ne natolik, aby bylo možné vytvořit úžasné webové stránky, ale dost na to, abychom porozuměli struktuře základní webové stránky.



Toho lze dosáhnout pomocí knihoven Requests a BeautifulSoup Python. Kromě těchto knihoven Pythonu budete potřebovat dobrý prohlížeč, jako je Google Chrome nebo Mozilla Firefox, protože by byly důležité pro počáteční analýzu před psaním kódu.



Knihovny Requests a BeautifulSoup lze nainstalovat pomocí příkazu pip z terminálu, jak je vidět níže:





požadavky na instalaci pipu
pip install BeautifulSoup4

Chcete -li potvrdit úspěch instalace, aktivujte interaktivní prostředí Pythonu, které se provádí zadáním krajta do terminálu.

Poté importujte obě knihovny:



importžádosti
zbs4importKrásná polévka

Pokud nejsou žádné chyby, import je úspěšný.

Proces

Přihlášení na web pomocí skriptů vyžaduje znalost HTML a představu o tom, jak web funguje. Pojďme se krátce podívat na to, jak web funguje.

Webové stránky se skládají ze dvou hlavních částí, na straně klienta a na straně serveru. Na straně klienta je část webové stránky, se kterou uživatel interaguje, zatímco na straně serveru je část webové stránky, kde se provádí obchodní logika a další operace serveru, jako je přístup do databáze.

Když se pokusíte otevřít webovou stránku pomocí jejího odkazu, zadáváte požadavek na straně serveru, aby vám přinesl soubory HTML a další statické soubory, jako jsou CSS a JavaScript. Tento požadavek je známý jako požadavek GET. Když však vyplňujete formulář, nahráváte mediální soubor nebo dokument, vytváříte příspěvek a kliknete na tlačítko řekněme odeslat, odesíláte informace na stranu serveru. Tento požadavek je známý jako požadavek POST.

Pochopení těchto dvou pojmů by bylo důležité při psaní našeho skriptu.

Kontrola webových stránek

K procvičení konceptů tohoto článku použijeme Citáty na škrábání webová stránka.

Přihlášení na webové stránky vyžaduje informace, jako je uživatelské jméno a heslo.

Protože je však tento web používán pouze jako důkaz koncepce, může se stát cokoli. Proto bychom používali admin jako uživatelské jméno a 12345 jako heslo.

Za prvé, je důležité zobrazit zdroj stránky, protože to poskytne přehled o struktuře webové stránky. To lze provést kliknutím pravým tlačítkem na webovou stránku a kliknutím na Zobrazit zdroj stránky. Dále zkontrolujete přihlašovací formulář. To provedete kliknutím pravým tlačítkem na jedno z přihlašovacích polí a kliknutím zkontrolovat prvek . Při kontrole prvku byste měli vidět vstup tagy a poté rodič formulář označte někde nad ním. To ukazuje, že přihlášení jsou v podstatě formy POŠTA na serverovou stranu webu.

Nyní si všimněte název atribut vstupních značek pro pole uživatelského jména a hesla, byly by potřeba při psaní kódu. Pro tento web je název atribut pro uživatelské jméno a heslo jsou uživatelské jméno a Heslo resp.

Dále musíme vědět, zda existují další parametry, které by byly důležité pro přihlášení. Pojďme to rychle vysvětlit. Aby se zvýšila bezpečnost webových stránek, tokeny se obvykle generují, aby se zabránilo útokům na padělané weby.

Pokud tedy tyto tokeny nejsou přidány k požadavku POST, přihlášení se nezdaří. Jak tedy víme o takových parametrech?

Potřebovali bychom použít kartu Síť. Chcete -li tuto kartu získat v prohlížeči Google Chrome nebo Mozilla Firefox, otevřete Nástroje pro vývojáře a klikněte na kartu Síť.

Jakmile jste na kartě sítě, zkuste aktualizovat aktuální stránku a všimnete si přicházejících požadavků. Při pokusu o přihlášení byste si měli dávat pozor na odesílání požadavků POST.

Zde je to, co bychom dělali dále, když máme otevřenou kartu Síť. Zadejte přihlašovací údaje a zkuste se přihlásit, první požadavek, který byste viděli, by měl být požadavek POST.

Klikněte na požadavek POST a zobrazte parametry formuláře. Všimli byste si, že web má a csrf_token parametr s hodnotou. Tato hodnota je dynamická hodnota, proto bychom tyto hodnoty museli zachytit pomocí DOSTAT před použitím souboru POŠTA žádost.

U jiných webových stránek, na kterých byste pracovali, pravděpodobně neuvidíte csrf_token ale mohou existovat i jiné tokeny, které jsou generovány dynamicky. Časem se budete lépe orientovat v parametrech, na kterých při pokusu o přihlášení skutečně záleží.

Kód

Za prvé, musíme použít Requests a BeautifulSoup, abychom získali přístup k obsahu stránky přihlašovací stránky.

zžádostiimportZasedání
zbs4importKrásná polévkatak jakobs

sZasedání() tak jakos:
stránky =s.dostat('http://quotes.toscrape.com/login')
tisk(stránky.obsah)

Tím se vytiskne obsah přihlašovací stránky před tím, než se přihlásíme, a pokud budete hledat klíčové slovo pro přihlášení. Klíčové slovo se nachází v obsahu stránky a ukazuje, že se ještě musíme přihlásit.

Dále bychom hledali csrf_token klíčové slovo, které bylo nalezeno jako jeden z parametrů při předchozím použití karty sítě. Pokud klíčové slovo ukazuje shodu s vstup tag, pak lze hodnotu extrahovat při každém spuštění skriptu pomocí programu BeautifulSoup.

zžádostiimportZasedání
zbs4importKrásná polévkatak jakobs

sZasedání() tak jakos:
stránky =s.dostat('http://quotes.toscrape.com/login')
bs_content=bs(stránky.obsah, 'html.parser')
žeton =bs_content.nalézt('vstup', {'název':'csrf_token'})['hodnota']
přihlašovací údaje= {'uživatelské jméno':'admin','Heslo':'12345', 'csrf_token':žeton}
s.pošta('http://quotes.toscrape.com/login',přihlašovací údaje)
domovská stránka=s.dostat('http://quotes.toscrape.com')
tisk(domovská stránka.obsah)

Po přihlášení by se obsah stránky vytiskl a pokud byste hledali klíčové slovo Logout. Klíčové slovo by bylo nalezeno v obsahu stránky, což ukazuje, že jsme se mohli úspěšně přihlásit.

Pojďme se podívat na každý řádek kódu.

zžádostiimportZasedání
zbs4importKrásná polévkatak jakobs

Řádky kódu výše se používají k importu objektu Session z knihovny požadavků a objektu BeautifulSoup z knihovny bs4 pomocí aliasu bs .

sZasedání() tak jakos:

Relace požadavků se používá, pokud máte v úmyslu zachovat kontext žádosti, aby bylo možné ukládat soubory cookie a všechny informace o této relaci žádosti.

bs_content=bs(stránky.obsah, 'html.parser')
žeton =bs_content.nalézt('vstup', {'název':'csrf_token'})['hodnota']

Tento kód zde využívá knihovnu BeautifulSoup, takže csrf_token lze extrahovat z webové stránky a poté přiřadit proměnné tokenu. Můžete se dozvědět o extrahování dat z uzlů pomocí aplikace BeautifulSoup.

přihlašovací údaje= {'uživatelské jméno':'admin','Heslo':'12345', 'csrf_token':žeton}
s.pošta('http://quotes.toscrape.com/login',přihlašovací údaje)

Kód zde vytvoří slovník parametrů, které se mají použít pro přihlášení. Klíče slovníků jsou název atributy vstupních značek a hodnoty jsou hodnota atributy vstupních značek.

The pošta metoda se používá k odeslání požadavku na příspěvek s parametry a přihlášení nás.

domovská stránka=s.dostat('http://quotes.toscrape.com')
tisk(domovská stránka.obsah)

Po přihlášení tyto řádky kódu výše jednoduše extrahují informace ze stránky a ukazují, že přihlášení bylo úspěšné.

Závěr

Proces přihlašování na webové stránky pomocí Pythonu je poměrně snadný, ale nastavení webových stránek není stejné, proto se některé weby přihlašují obtížněji než jiné. Pro překonání jakýchkoli výzev k přihlášení je možné udělat více.

Nejdůležitější věcí na tom všem je znalost HTML, Requests, BeautifulSoup a schopnost porozumět informacím získaným z karty Network nástrojů pro vývojáře vašeho webového prohlížeče.