ocrmypdf je alat za dodavanje OCR (optičko prepoznavanje karaktera) sloja u PDF

ocrmypdf je alat za dodavanje OCR (optičko prepoznavanje karaktera) sloja u PDF dokumente, omogućavajući pretragu i kopiranje teksta iz skeniranih dokumenata. Radi kao wrapper oko Tesseract OCR-a i podržava različite jezike, opcije za optimizaciju i kompresiju PDF-ova.

Instalacija

Na Linuxu (Debian/Ubuntu):

sudo apt install ocrmypdf

Na Arch Linuxu:

sudo pacman -S ocrmypdf

Na macOS-u:

brew install ocrmypdf

Na Windowsu (putem pip-a):

pip install ocrmypdf

Osnovna upotreba

Jednostavno dodavanje OCR sloja:

ocrmypdf input.pdf output.pdf

Ako je input.pdf skenirani dokument (slike bez teksta), ocrmypdf će prepoznati tekst i dodati ga kao selektabilan sloj u output.pdf.

Najvažnije opcije i primeri

1. Određivanje jezika za OCR

Ako PDF sadrži tekst na određenom jeziku, možeš ga navesti pomoću -l:

ocrmypdf -l sr input.pdf output.pdf

Podržani su mnogi jezici (npr. sr, en, de, fr, ru itd.).

2. Zadržavanje originalnog izgleda PDF-a

Ako ne želiš da ocrmypdf menja izgled originalnog PDF-a, koristi:

ocrmypdf --deskew input.pdf output.pdf

Opcija --deskew ispravlja blago nagnute stranice.

3. Automatska rotacija stranica

Ako su neke stranice naopako okrenute, koristi:

ocrmypdf --rotate-pages input.pdf output.pdf

Možeš kombinovati sa:

ocrmypdf --rotate-pages --rotate-pages-threshold 5 input.pdf output.pdf

--rotate-pages-threshold određuje prag sigurnosti za rotaciju.

4. Kompresija i optimizacija

Za smanjenje veličine izlaznog PDF-a:

ocrmypdf --optimize 1 input.pdf output.pdf

Za agresivniju kompresiju:

ocrmypdf --optimize 3 input.pdf output.pdf

5. Uklanjanje slike nakon OCR-a (samo tekst ostaje)

Ako želiš da sačuvaš samo prepoznati tekst bez slika:

ocrmypdf --sidecar output.txt input.pdf output.pdf

Ovo stvara zaseban .txt fajl sa prepoznatim tekstom.

6. Uklanjanje OCR-a iz PDF-a

Ako PDF već ima OCR sloj i želiš da ga ukloniš:

ocrmypdf --redo-ocr input.pdf output.pdf

Ovo će ponovo izvršiti OCR i prebrisati postojeći sloj.

7. Ograničavanje broja CPU jezgara

Ako OCR koristi previše resursa, možeš ograničiti broj paralelnih procesora:

ocrmypdf --jobs 2 input.pdf output.pdf

8. Dodavanje metapodataka u PDF

Možeš dodati autorstvo, naslov, itd.:

ocrmypdf --title "Moj Dokument" --author "Autor" --subject "OCR Test" input.pdf output.pdf

9. Ignorisanje OCR-a na već prepoznatim stranicama

Ako PDF već ima tekst, ali želiš OCR samo na skeniranim stranicama:

ocrmypdf --skip-text input.pdf output.pdf

10. Detekcija praznih stranica i njihovo uklanjanje

Ako PDF ima prazne stranice koje želiš ukloniti:

ocrmypdf --remove-background input.pdf output.pdf

Zaključak

ocrmypdf je moćan alat za dodavanje OCR sloja skeniranim dokumentima, optimizaciju i pretragu teksta u PDF-ovima. Uz brojne opcije, možeš precizno podesiti prepoznavanje teksta, rotaciju, kompresiju i druge funkcije.

By Abel

Leave a Reply

Your email address will not be published. Required fields are marked *