pdf2docx
je Python biblioteka koja omogućava konverziju PDF fajlova u DOCX format. Za razliku od standardnih OCR alata, pdf2docx
pokušava da očuva strukturu PDF dokumenta, uključujući:
✅ Tekst
✅ Tabele
✅ Slike
✅ Formatiranje
Koristi se uglavnom kada želiš da iz PDF-a dobiješ dokument koji se može lako uređivati u Microsoft Word-u (DOCX).
Instalacija na Linuxu
Prvo instaliraj biblioteku pomoću pip
:
pip install pdf2docx
Osnovna upotreba (pdf2docx
kao CLI alat)
Možeš direktno konvertovati PDF u DOCX pomoću komandne linije:
pdf2docx convert input.pdf output.docx
Ako želiš da konvertuješ samo određene stranice (npr. od 2. do 5.):
pdf2docx convert input.pdf output.docx --pages 2-5
Napredne opcije (pdf2docx
kao Python biblioteka)
Ako koristiš pdf2docx
u Python skripti, ovako izgleda osnovni primer:
1. Konverzija celog PDF-a u DOCX
from pdf2docx import Converter pdf_file = "input.pdf" docx_file = "output.docx" cv = Converter(pdf_file) cv.convert(docx_file) # Konvertuje ceo dokument cv.close()
2. Konverzija određenih stranica
Ako želiš da konvertuješ samo prve tri stranice:
cv = Converter("input.pdf") cv.convert("output.docx", start=0, end=2) # Start od 0 (prva stranica), end=2 (treća stranica) cv.close()
3. Ekstrakcija teksta iz PDF-a
Ako želiš samo da pročitaš tekst iz PDF-a i obradiš ga:
from pdf2docx import parse text = parse("input.pdf") print(text) # Prikazuje tekst iz PDF-a
4. Ručno podešavanje stilova konverzije
Ako hoćeš da fino kontrolišeš konverziju, možeš koristiti detailed_analysis=True
:
cv = Converter("input.pdf") cv.convert("output.docx", start=0, end=5, detailed_analysis=True) cv.close()
Ovo će analizirati formatiranje i omogućiti precizniju konverziju.
Zaključak
📌 pdf2docx
je moćan alat za konverziju PDF-a u DOCX, sa podrškom za tabele, slike i formatiranje.
📌 Možeš ga koristiti kao CLI alat ili kroz Python skripte.
📌 Omogućava konverziju celog dokumenta ili samo određenih stranica.