pdf2docx je Python biblioteka koja omogućava konverziju PDF fajlova u DOCX format. Za razliku od standardnih OCR alata, pdf2docx pokušava da očuva strukturu PDF dokumenta, uključujući:

✅ Tekst
✅ Tabele
✅ Slike
✅ Formatiranje

Koristi se uglavnom kada želiš da iz PDF-a dobiješ dokument koji se može lako uređivati u Microsoft Word-u (DOCX).


Instalacija na Linuxu

Prvo instaliraj biblioteku pomoću pip:

pip install pdf2docx

Osnovna upotreba (pdf2docx kao CLI alat)

Možeš direktno konvertovati PDF u DOCX pomoću komandne linije:

pdf2docx convert input.pdf output.docx

Ako želiš da konvertuješ samo određene stranice (npr. od 2. do 5.):

pdf2docx convert input.pdf output.docx --pages 2-5

Napredne opcije (pdf2docx kao Python biblioteka)

Ako koristiš pdf2docx u Python skripti, ovako izgleda osnovni primer:

1. Konverzija celog PDF-a u DOCX

from pdf2docx import Converter

pdf_file = "input.pdf"
docx_file = "output.docx"

cv = Converter(pdf_file)
cv.convert(docx_file)  # Konvertuje ceo dokument
cv.close()

2. Konverzija određenih stranica

Ako želiš da konvertuješ samo prve tri stranice:

cv = Converter("input.pdf")
cv.convert("output.docx", start=0, end=2)  # Start od 0 (prva stranica), end=2 (treća stranica)
cv.close()

3. Ekstrakcija teksta iz PDF-a

Ako želiš samo da pročitaš tekst iz PDF-a i obradiš ga:

from pdf2docx import parse

text = parse("input.pdf")
print(text)  # Prikazuje tekst iz PDF-a

4. Ručno podešavanje stilova konverzije

Ako hoćeš da fino kontrolišeš konverziju, možeš koristiti detailed_analysis=True:

cv = Converter("input.pdf")
cv.convert("output.docx", start=0, end=5, detailed_analysis=True)
cv.close()

Ovo će analizirati formatiranje i omogućiti precizniju konverziju.


Zaključak

📌 pdf2docx je moćan alat za konverziju PDF-a u DOCX, sa podrškom za tabele, slike i formatiranje.
📌 Možeš ga koristiti kao CLI alat ili kroz Python skripte.
📌 Omogućava konverziju celog dokumenta ili samo određenih stranica.

By Abel

Leave a Reply

Your email address will not be published. Required fields are marked *