Tesseract je volně dostupný open-source nástroj pro rozpoznávání textu známý také jako OCR (Optical Character Recognition). Primárně se používá k identifikaci a extrahování textu z obrázků. Přečte text z obrazových dat a zapíše výstup do nového souboru .txt. Tesseract funguje také pod Pythonem, protože se používá hlavně k rozpoznání rukopisu z obrázků. Využívá model LSTR (Long short-term memory). Tesseract pracuje pod licencí Apache 2.0.
V tomto blogu se budeme podrobněji zabývat způsobem instalace Tesseractu na Windows.
Takže, pojďme začít!
Jak nainstalovat Tesseract na Windows?
Tesseract je nástroj příkazového řádku, který se používá pro extrakci textu z obrázků. Chcete-li nainstalovat Tesseract na Windows, musíte postupovat podle níže uvedených pokynů.
Krok 1: Stáhněte si instalační program Tesseract
Nejprve přejděte na níže uvedený odkaz a stáhněte si instalační program Tesseract podle specifikace vašeho systému:
https: // github.com / UB-Mannheim / tesseract / týden
Krok 2: Spusťte instalační program Tesseract
Navštivte ' Stahování ” adresář, kde je stažen instalační program Tesseract. Chcete-li nainstalovat Tesseract na Windows, spusťte instalační program Tesseract tak, že na něj dvakrát kliknete:
Krok 3: Vyberte jazyk
Instalační program Tesseract podporuje mnoho jazyků. Chcete-li pracovat s uživatelským rozhraním instalačního programu, vyberte „ Angličtina “ jako váš jazyk a klikněte na “ OK “:
Krok 4: Nainstalujte Tesseract
Poté se na obrazovce objeví průvodce nastavením Tesseract OCR. Chcete-li zahájit instalaci Tesseract, klepněte na „ další ' knoflík:
Chcete-li přijmout „ Licenční smlouva “, klikněte na „ Souhlasím ' knoflík:
Vybrat ' Instalovat pro každého, kdo používá tento počítač “ a stiskněte tlačítko “ další ' knoflík:
Pokud chcete přidat data skriptu nebo zahrnout jiný jazyk, označte jejich příslušná zaškrtávací políčka a stiskněte „ další ' knoflík. Protože nechceme žádný další datový skript nebo jazyk, budeme pokračovat s výchozími vybranými možnostmi:
Vyberte umístění instalace a klikněte na „ další ' knoflík:
Pokud nechcete vytvářet zástupce v nabídce Start, označte „ Nevytvářej zkratky “ a stiskněte tlačítko “ Nainstalujte ' knoflík:
Poté se spustí instalace Tesseractu. Počkejte na dokončení instalace a stiskněte tlačítko „ další ' knoflík:
Nakonec klikněte na „ Dokončit ' knoflík:
Krok 5: Nastavte proměnnou prostředí
Po instalaci musíte nastavit proměnnou prostředí Tesseract. Chcete-li tak učinit, nejprve navštivte adresář, do kterého jste nainstalovali Tesseract a zkopírujte cestu z „ Adresa ' bar:
Vyhledejte „ Proměnné prostředí “ v „ Spuštění “ menu a otevřete “ Upravte systémové proměnné prostředí “:
Uvnitř nastavení přejděte na „ Pokročilý “ menu nastavení a klikněte na “ Proměnné prostředí ' knoflík:
Vyber ' Cesta 'Proměnná z ' Systémové proměnné a stiskněte tlačítko Upravit ' knoflík:
Potom ' Upravit proměnnou prostředí Na obrazovce se objeví okno “. Zmáčkni ' Nový ” a vložte sem zkopírovanou cestu instalačního adresáře Tesseract. Nakonec klikněte na „ OK ' knoflík:
Krok 6: Ověřte instalaci Tesseract
Chcete-li ověřit instalaci Tesseract, otevřete příkazový řádek Windows vyhledáním „ Příkazový řádek “ v „ Spuštění ' Jídelní lístek:
Podívejte se na verzi Tesseract pomocí poskytnutého příkazu:
> tesseract --verze
Níže uvedený výstup znamená, že jsme úspěšně nainstalovali verzi Tesseract “ v5.2.0 “ v systému Windows:
Pojďme se podívat na to, jak používat Tesseract ve Windows.
Jak používat Tesseract ve Windows?
Tesseract se používá ke čtení rukopisu nebo extrahování textu z obrázků. Podívejme se, jak to funguje:
Krok 1: Vyberte obrázek
Vyberte obrázek, ze kterého chcete extrahovat text. Jak jsme zvolili' 1.png “:
Krok 2: Extrahujte text z obrázku
Jakmile je CMD otevřen. Využijte „ CD ” pro změnu adresáře, kde je obrázek uložen. Poté spusťte „ tesseract ” a definujte název souboru obrázku, jak jsme zadali “ 1.png “. ' Text Parametr ukazuje název výstupního souboru:
> CD C:\Users\anuma\OneDrive\Pictures\Uložené obrázky> tesseract 1 .png 'Text'
Krok 3: Ověřte extrakci textu
Chcete-li ověřit extrakci textu, přejděte do adresáře, kde existuje soubor obrázku. Můžete vidět, že výstupní soubor ' Text “ je zde také uložen. Dvakrát klikněte na výstupní soubor a zkontrolujte, zda tesseract extrahoval text z obrázku nebo ne:
Můžete vidět, že jsme úspěšně extrahovali text pomocí nástroje příkazového řádku Tesseract:
Ukázali jsme techniku instalace a používání Tesseract na Windows.
Závěr
Chcete-li nainstalovat Tesseract na Windows, je nutné stáhnout instalační program Tesseract. Za tímto účelem postupujte podle první sekce tohoto článku. Dále nastavte proměnnou prostředí Path pro použití a přístup k Tesseract z příkazového řádku Windows. Poté vyberte soubor obrázku a použijte „ Tesseract ” pro rozpoznání a extrahování textu z obrázku. Zde jste se naučili instalovat a používat „ Tesseract “ na oknech.