Jak nainstalovat Tesseract na Windows

Jak Nainstalovat Tesseract Na Windows



Tesseract je volně dostupný open-source nástroj pro rozpoznávání textu známý také jako OCR (Optical Character Recognition). Primárně se používá k identifikaci a extrahování textu z obrázků. Přečte text z obrazových dat a zapíše výstup do nového souboru .txt. Tesseract funguje také pod Pythonem, protože se používá hlavně k rozpoznání rukopisu z obrázků. Využívá model LSTR (Long short-term memory). Tesseract pracuje pod licencí Apache 2.0.

V tomto blogu se budeme podrobněji zabývat způsobem instalace Tesseractu na Windows.







Takže, pojďme začít!



Jak nainstalovat Tesseract na Windows?

Tesseract je nástroj příkazového řádku, který se používá pro extrakci textu z obrázků. Chcete-li nainstalovat Tesseract na Windows, musíte postupovat podle níže uvedených pokynů.



Krok 1: Stáhněte si instalační program Tesseract





Nejprve přejděte na níže uvedený odkaz a stáhněte si instalační program Tesseract podle specifikace vašeho systému:

https: // github.com / UB-Mannheim / tesseract / týden



Krok 2: Spusťte instalační program Tesseract

Navštivte ' Stahování ” adresář, kde je stažen instalační program Tesseract. Chcete-li nainstalovat Tesseract na Windows, spusťte instalační program Tesseract tak, že na něj dvakrát kliknete:

Krok 3: Vyberte jazyk

Instalační program Tesseract podporuje mnoho jazyků. Chcete-li pracovat s uživatelským rozhraním instalačního programu, vyberte „ Angličtina “ jako váš jazyk a klikněte na “ OK “:

Krok 4: Nainstalujte Tesseract

Poté se na obrazovce objeví průvodce nastavením Tesseract OCR. Chcete-li zahájit instalaci Tesseract, klepněte na „ další ' knoflík:

Chcete-li přijmout „ Licenční smlouva “, klikněte na „ Souhlasím ' knoflík:

Vybrat ' Instalovat pro každého, kdo používá tento počítač “ a stiskněte tlačítko “ další ' knoflík:

Pokud chcete přidat data skriptu nebo zahrnout jiný jazyk, označte jejich příslušná zaškrtávací políčka a stiskněte „ další ' knoflík. Protože nechceme žádný další datový skript nebo jazyk, budeme pokračovat s výchozími vybranými možnostmi:

Vyberte umístění instalace a klikněte na „ další ' knoflík:

Pokud nechcete vytvářet zástupce v nabídce Start, označte „ Nevytvářej zkratky “ a stiskněte tlačítko “ Nainstalujte ' knoflík:

Poté se spustí instalace Tesseractu. Počkejte na dokončení instalace a stiskněte tlačítko „ další ' knoflík:

Nakonec klikněte na „ Dokončit ' knoflík:

Krok 5: Nastavte proměnnou prostředí

Po instalaci musíte nastavit proměnnou prostředí Tesseract. Chcete-li tak učinit, nejprve navštivte adresář, do kterého jste nainstalovali Tesseract a zkopírujte cestu z „ Adresa ' bar:

Vyhledejte „ Proměnné prostředí “ v „ Spuštění “ menu a otevřete “ Upravte systémové proměnné prostředí “:

Uvnitř nastavení přejděte na „ Pokročilý “ menu nastavení a klikněte na “ Proměnné prostředí ' knoflík:

Vyber ' Cesta 'Proměnná z ' Systémové proměnné a stiskněte tlačítko Upravit ' knoflík:

Potom ' Upravit proměnnou prostředí Na obrazovce se objeví okno “. Zmáčkni ' Nový ” a vložte sem zkopírovanou cestu instalačního adresáře Tesseract. Nakonec klikněte na „ OK ' knoflík:

Krok 6: Ověřte instalaci Tesseract

Chcete-li ověřit instalaci Tesseract, otevřete příkazový řádek Windows vyhledáním „ Příkazový řádek “ v „ Spuštění ' Jídelní lístek:

Podívejte se na verzi Tesseract pomocí poskytnutého příkazu:

> tesseract --verze

Níže uvedený výstup znamená, že jsme úspěšně nainstalovali verzi Tesseract “ v5.2.0 “ v systému Windows:

Pojďme se podívat na to, jak používat Tesseract ve Windows.

Jak používat Tesseract ve Windows?

Tesseract se používá ke čtení rukopisu nebo extrahování textu z obrázků. Podívejme se, jak to funguje:

Krok 1: Vyberte obrázek

Vyberte obrázek, ze kterého chcete extrahovat text. Jak jsme zvolili' 1.png “:

Krok 2: Extrahujte text z obrázku

Jakmile je CMD otevřen. Využijte „ CD ” pro změnu adresáře, kde je obrázek uložen. Poté spusťte „ tesseract ” a definujte název souboru obrázku, jak jsme zadali “ 1.png “. ' Text Parametr ukazuje název výstupního souboru:

> CD C:\Users\anuma\OneDrive\Pictures\Uložené obrázky
> tesseract 1 .png 'Text'

Krok 3: Ověřte extrakci textu

Chcete-li ověřit extrakci textu, přejděte do adresáře, kde existuje soubor obrázku. Můžete vidět, že výstupní soubor ' Text “ je zde také uložen. Dvakrát klikněte na výstupní soubor a zkontrolujte, zda tesseract extrahoval text z obrázku nebo ne:

Můžete vidět, že jsme úspěšně extrahovali text pomocí nástroje příkazového řádku Tesseract:

Ukázali jsme techniku ​​instalace a používání Tesseract na Windows.

Závěr

Chcete-li nainstalovat Tesseract na Windows, je nutné stáhnout instalační program Tesseract. Za tímto účelem postupujte podle první sekce tohoto článku. Dále nastavte proměnnou prostředí Path pro použití a přístup k Tesseract z příkazového řádku Windows. Poté vyberte soubor obrázku a použijte „ Tesseract ” pro rozpoznání a extrahování textu z obrázku. Zde jste se naučili instalovat a používat „ Tesseract “ na oknech.