Konvertovanje PDF u HTML bez slika

Ovde je primer programa u Pythonu koji konvertuje PDF dokument u HTML koristeći biblioteku pdfplumber i html za jednostavniju obradu teksta iz PDF-a.

Da bi se koristila pdfplumber, instaliraj ga komandom:

pip install pdfplumber

Kod za konvertovanje PDF u HTML kopirajte u fajl pdf2html.py


#pdf2html.py
# Instalacija potrebnih zavisnosti:pip install pdfplumber



import pdfplumber
from html import escape
import sys
import os

def pdf_to_html(pdf_path, html_path):
    try:
        with pdfplumber.open(pdf_path) as pdf:
            html_content = "<html><body>\n"
            for page in pdf.pages:
                text = page.extract_text()
                if text:
                    # Pretvaramo tekst u bezbedni HTML
                    html_content += f"<pre>{escape(text)}</pre>\n"
            html_content += "</body></html>"
        
        with open(html_path, "w", encoding="utf-8") as html_file:
            html_file.write(html_content)
        
        print(f"PDF uspešno konvertovan u HTML: {html_path}")
    except Exception as e:
        print(f"Došlo je do greške: {e}")

if __name__ == "__main__":
    if len(sys.argv) != 2:
        print("Upotreba: python3 pdf2html.py ime.pdf")
        sys.exit(1)

    pdf_path = sys.argv[1]

    if not os.path.isfile(pdf_path):
        print(f"Fajl ne postoji: {pdf_path}")
        sys.exit(1)

    # Generišemo ime HTML fajla
    base_name = os.path.splitext(pdf_path)[0]
    html_path = base_name + ".html"

    pdf_to_html(pdf_path, html_path)

Opis rada programa:

  • Otvara PDF fajl koristeći pdfplumber.
  • Ekstrahuje tekst sa svake stranice i formatira ga u HTML.
  • Snima dobijeni HTML sadržaj u fajl.

Primer korišćenja:

python3 pdf2html.py neki_naziv.pdf

Rezultat:

  • Dobijeni neki_naziv.html fajl možeš otvoriti u bilo kom veb pretraživaču.

By Abel

Leave a Reply

Your email address will not be published. Required fields are marked *