Konvertovanje PDF u HTML bez slika

Ovde je primer programa u Pythonu koji konvertuje PDF dokument u HTML koristeći biblioteku pdfplumber i html za jednostavniju obradu teksta iz PDF-a.

Da bi se koristila pdfplumber, instaliraj ga komandom:

pip install pdfplumber

Kod za konvertovanje PDF u HTML kopirajte u fajl pdf2html.py

import pdfplumber
from html import escape

def pdf_to_html(pdf_path, html_path):
    try:
        with pdfplumber.open(pdf_path) as pdf:
            html_content = "<html><body>\n"
            for page in pdf.pages:
                text = page.extract_text()
                if text:
                    # Pretvaramo tekst u bezbedni HTML
                    html_content += f"<pre>{escape(text)}</pre>\n"
            html_content += "</body></html>"
        
        with open(html_path, "w", encoding="utf-8") as html_file:
            html_file.write(html_content)
        
        print(f"PDF uspešno konvertovan u HTML: {html_path}")
    except Exception as e:
        print(f"Došlo je do greške: {e}")

# Primer korišćenja
pdf_putanja = "primer.pdf"  # Putanja do tvog PDF fajla
html_putanja = "output.html"  # Putanja za izlazni HTML fajl
pdf_to_html(pdf_putanja, html_putanja)

Opis rada programa:

  • Otvara PDF fajl koristeći pdfplumber.
  • Ekstrahuje tekst sa svake stranice i formatira ga u HTML.
  • Snima dobijeni HTML sadržaj u fajl.

Primer korišćenja:

python3 pdf2html.py ulazni.pdf izlazni.html

Rezultat:

  • Dobijeni izlazni.html fajl možeš otvoriti u bilo kom veb pretraživaču.

By Abel

Leave a Reply

Your email address will not be published. Required fields are marked *