Ovde je primer programa u Pythonu koji konvertuje PDF dokument u HTML koristeći biblioteku pdfplumber i html za jednostavniju obradu teksta iz PDF-a.
Da bi se koristila pdfplumber, instaliraj ga komandom:
pip install pdfplumber
Kod za konvertovanje PDF u HTML kopirajte u fajl pdf2html.py
#pdf2html.py
# Instalacija potrebnih zavisnosti:pip install pdfplumber
import pdfplumber
from html import escape
import sys
import os
def pdf_to_html(pdf_path, html_path):
try:
with pdfplumber.open(pdf_path) as pdf:
html_content = "<html><body>\n"
for page in pdf.pages:
text = page.extract_text()
if text:
# Pretvaramo tekst u bezbedni HTML
html_content += f"<pre>{escape(text)}</pre>\n"
html_content += "</body></html>"
with open(html_path, "w", encoding="utf-8") as html_file:
html_file.write(html_content)
print(f"PDF uspešno konvertovan u HTML: {html_path}")
except Exception as e:
print(f"Došlo je do greške: {e}")
if __name__ == "__main__":
if len(sys.argv) != 2:
print("Upotreba: python3 pdf2html.py ime.pdf")
sys.exit(1)
pdf_path = sys.argv[1]
if not os.path.isfile(pdf_path):
print(f"Fajl ne postoji: {pdf_path}")
sys.exit(1)
# Generišemo ime HTML fajla
base_name = os.path.splitext(pdf_path)[0]
html_path = base_name + ".html"
pdf_to_html(pdf_path, html_path)
Opis rada programa:
- Otvara PDF fajl koristeći
pdfplumber. - Ekstrahuje tekst sa svake stranice i formatira ga u HTML.
- Snima dobijeni HTML sadržaj u fajl.
Primer korišćenja:
python3 pdf2html.py neki_naziv.pdf
Rezultat:
- Dobijeni
neki_naziv.htmlfajl možeš otvoriti u bilo kom veb pretraživaču.
