ocrmypdf
je alat za dodavanje OCR (optičko prepoznavanje karaktera) sloja u PDF dokumente, omogućavajući pretragu i kopiranje teksta iz skeniranih dokumenata. Radi kao wrapper oko Tesseract OCR-a i podržava različite jezike, opcije za optimizaciju i kompresiju PDF-ova.
Instalacija
Na Linuxu (Debian/Ubuntu):
sudo apt install ocrmypdf
Na Arch Linuxu:
sudo pacman -S ocrmypdf
Na macOS-u:
brew install ocrmypdf
Na Windowsu (putem pip-a):
pip install ocrmypdf
Osnovna upotreba
Jednostavno dodavanje OCR sloja:
ocrmypdf input.pdf output.pdf
Ako je input.pdf
skenirani dokument (slike bez teksta), ocrmypdf
će prepoznati tekst i dodati ga kao selektabilan sloj u output.pdf
.
Najvažnije opcije i primeri
1. Određivanje jezika za OCR
Ako PDF sadrži tekst na određenom jeziku, možeš ga navesti pomoću -l
:
ocrmypdf -l sr input.pdf output.pdf
Podržani su mnogi jezici (npr. sr
, en
, de
, fr
, ru
itd.).
2. Zadržavanje originalnog izgleda PDF-a
Ako ne želiš da ocrmypdf
menja izgled originalnog PDF-a, koristi:
ocrmypdf --deskew input.pdf output.pdf
Opcija --deskew
ispravlja blago nagnute stranice.
3. Automatska rotacija stranica
Ako su neke stranice naopako okrenute, koristi:
ocrmypdf --rotate-pages input.pdf output.pdf
Možeš kombinovati sa:
ocrmypdf --rotate-pages --rotate-pages-threshold 5 input.pdf output.pdf
--rotate-pages-threshold
određuje prag sigurnosti za rotaciju.
4. Kompresija i optimizacija
Za smanjenje veličine izlaznog PDF-a:
ocrmypdf --optimize 1 input.pdf output.pdf
Za agresivniju kompresiju:
ocrmypdf --optimize 3 input.pdf output.pdf
5. Uklanjanje slike nakon OCR-a (samo tekst ostaje)
Ako želiš da sačuvaš samo prepoznati tekst bez slika:
ocrmypdf --sidecar output.txt input.pdf output.pdf
Ovo stvara zaseban .txt
fajl sa prepoznatim tekstom.
6. Uklanjanje OCR-a iz PDF-a
Ako PDF već ima OCR sloj i želiš da ga ukloniš:
ocrmypdf --redo-ocr input.pdf output.pdf
Ovo će ponovo izvršiti OCR i prebrisati postojeći sloj.
7. Ograničavanje broja CPU jezgara
Ako OCR koristi previše resursa, možeš ograničiti broj paralelnih procesora:
ocrmypdf --jobs 2 input.pdf output.pdf
8. Dodavanje metapodataka u PDF
Možeš dodati autorstvo, naslov, itd.:
ocrmypdf --title "Moj Dokument" --author "Autor" --subject "OCR Test" input.pdf output.pdf
9. Ignorisanje OCR-a na već prepoznatim stranicama
Ako PDF već ima tekst, ali želiš OCR samo na skeniranim stranicama:
ocrmypdf --skip-text input.pdf output.pdf
10. Detekcija praznih stranica i njihovo uklanjanje
Ako PDF ima prazne stranice koje želiš ukloniti:
ocrmypdf --remove-background input.pdf output.pdf
Zaključak
ocrmypdf
je moćan alat za dodavanje OCR sloja skeniranim dokumentima, optimizaciju i pretragu teksta u PDF-ovima. Uz brojne opcije, možeš precizno podesiti prepoznavanje teksta, rotaciju, kompresiju i druge funkcije.