Ovde je primer programa u Pythonu koji konvertuje PDF dokument u HTML koristeći biblioteku pdfplumber
i html
za jednostavniju obradu teksta iz PDF-a.
Da bi se koristila pdfplumber
, instaliraj ga komandom:
pip install pdfplumber
Kod za konvertovanje PDF u HTML kopirajte u fajl pdf2html.py
import pdfplumber from html import escape def pdf_to_html(pdf_path, html_path): try: with pdfplumber.open(pdf_path) as pdf: html_content = "<html><body>\n" for page in pdf.pages: text = page.extract_text() if text: # Pretvaramo tekst u bezbedni HTML html_content += f"<pre>{escape(text)}</pre>\n" html_content += "</body></html>" with open(html_path, "w", encoding="utf-8") as html_file: html_file.write(html_content) print(f"PDF uspešno konvertovan u HTML: {html_path}") except Exception as e: print(f"Došlo je do greške: {e}") # Primer korišćenja pdf_putanja = "primer.pdf" # Putanja do tvog PDF fajla html_putanja = "output.html" # Putanja za izlazni HTML fajl pdf_to_html(pdf_putanja, html_putanja)
Opis rada programa:
- Otvara PDF fajl koristeći
pdfplumber
. - Ekstrahuje tekst sa svake stranice i formatira ga u HTML.
- Snima dobijeni HTML sadržaj u fajl.
Primer korišćenja:
python3 pdf2html.py ulazni.pdf izlazni.html
Rezultat:
- Dobijeni
izlazni.html
fajl možeš otvoriti u bilo kom veb pretraživaču.