Konvertovanje PDF u HTML bez slika

By Aleksandar Maričić January 26, 2025

Ovde je primer programa u Pythonu koji konvertuje PDF dokument u HTML koristeći biblioteku pdfplumber i html za jednostavniju obradu teksta iz PDF-a.

Da bi se koristila pdfplumber, instaliraj ga komandom:

pip install pdfplumber

Kod za konvertovanje PDF u HTML kopirajte u fajl pdf2html.py

#pdf2html.py
# Instalacija potrebnih zavisnosti:pip install pdfplumber



import pdfplumber
from html import escape
import sys
import os

def pdf_to_html(pdf_path, html_path):
    try:
        with pdfplumber.open(pdf_path) as pdf:
            html_content = "<html><body>\n"
            for page in pdf.pages:
                text = page.extract_text()
                if text:
                    # Pretvaramo tekst u bezbedni HTML
                    html_content += f"<pre>{escape(text)}</pre>\n"
            html_content += "</body></html>"
        
        with open(html_path, "w", encoding="utf-8") as html_file:
            html_file.write(html_content)
        
        print(f"PDF uspešno konvertovan u HTML: {html_path}")
    except Exception as e:
        print(f"Došlo je do greške: {e}")

if __name__ == "__main__":
    if len(sys.argv) != 2:
        print("Upotreba: python3 pdf2html.py ime.pdf")
        sys.exit(1)

    pdf_path = sys.argv[1]

    if not os.path.isfile(pdf_path):
        print(f"Fajl ne postoji: {pdf_path}")
        sys.exit(1)

    # Generišemo ime HTML fajla
    base_name = os.path.splitext(pdf_path)[0]
    html_path = base_name + ".html"

    pdf_to_html(pdf_path, html_path)

Opis rada programa:

Otvara PDF fajl koristeći pdfplumber.
Ekstrahuje tekst sa svake stranice i formatira ga u HTML.
Snima dobijeni HTML sadržaj u fajl.

Primer korišćenja:

python3 pdf2html.py neki_naziv.pdf

Rezultat:

Dobijeni neki_naziv.html fajl možeš otvoriti u bilo kom veb pretraživaču.

Novosti

Konvertovanje PDF u HTML bez slika

By Aleksandar Maričić

Leave a Reply Cancel reply

Da li ste propustili?

Analiza fragmenata Ilijadе II iz groba 65 u Al-Bahnasi

Tehnologija depopulacije: Algoritamska mašina biološke kapitulacije – dokaz o planiranoj instrumentalizaciji pornografske industrije

Zorin OS 18 Recenzija: Kraj Windows ere i trijumf kontrole

Galaktički nacionalni park: Da li smo samo turisti u opasnom kosmosu?

Konvertovanje PDF u HTML bez slika

By Aleksandar Maričić

Related Post

yt-dlp Professional GUI: Kompletan vodič kroz najmoćniji download manager

Najbolji besplatni AI za programiranje u python i node.js

QwebX Browser v1.2.4

Leave a Reply Cancel reply

Da li ste propustili?

Analiza fragmenata Ilijadе II iz groba 65 u Al-Bahnasi

Tehnologija depopulacije: Algoritamska mašina biološke kapitulacije – dokaz o planiranoj instrumentalizaciji pornografske industrije

Zorin OS 18 Recenzija: Kraj Windows ere i trijumf kontrole

Galaktički nacionalni park: Da li smo samo turisti u opasnom kosmosu?