Konvertovanje PDF-a u HTML pomoću Pythona

Sadržaj

Instaliraj s Pipom

pip instalirati Spire.PDF

Kopiraj u međuspremnik

Povezane veze

Preuzmite biblioteku

PDF datoteke popularan su izbor za dijeljenje i distribuciju dokumenata, ali izdvajanje i prenamjena PDF sadržaja može biti prilično izazovno. Srećom, pretvaranje PDF datoteka u HTML pomoću Pythona nudi izvrsno rješenje za pronalaženje PDF informacija i prenamjenu, što poboljšava pristupačnost, mogućnost pretraživanja i prilagodljivost. Osim toga, HTML format omogućuje tražilicama indeksiranje sadržaja, što povećava vjerojatnost da će biti otkriven na webu. Štoviše, uz Pythonovu fleksibilnost i jednostavnost korištenja, i početnici i iskusni programeri mogu koristiti Python za jednostavno i učinkovito pretvaranje PDF-a u HTML .

Ovaj se članak fokusira na to kako pretvoriti PDF u HTML u Python programima. Uglavnom uključuje sljedeće teme:

Pregled pretvaranja PDF-a u HTML pomoću Pythona

Pythonovi opsežni API-ji pružaju pogodnost za razne operacije obrade PDF dokumenata. Spire.PDF za Python jedan je od moćnih API-ja koji može izvoditi razne operacije na PDF dokumentima, uključujući pretvaranje, uređivanje i spajanje PDF dokumenata . A pretvaranje PDF-a u HTML s Pythonom može se bez napora implementirati s ovim API-jem.

U Spire.PDF za Python klasa PdfDocument predstavlja PDF dokument. Možemo učitati PDF datoteku pomoću metode LoadFromFile() u okviru ove klase i spremiti dokument u drugim formatima, poput HTML-a, kako bismo postigli jednostavnu konverziju iz PDF-a u HTML.

Štoviše, ovaj API također nudi metodu SetConvertHtmlOptions() pod svojstvom PdfDocument.ConversionOptions za postavljanje opcija ugrađivanja slike tijekom pretvorbe. Ispod su parametri koji se mogu proslijediti ovoj metodi za postavljanje maksimalnog broja stranica, opcije ugrađivanja SVG-a, opcije ugrađivanja slike i opcije kvalitete SVG-a:

  • useEmbeddedSvg (bool) : Kada je postavljeno na True, dopušta ugrađivanje SVG-a u pretvorenu HTML datoteku. Rezultirajuća HTML datoteka uključivat će sve elemente iz PDF dokumenta, uključujući slike, u jednu HTML datoteku.
  • useEmbeddedImg (bool) : Kada je postavljeno na True, dopušta ugrađivanje slika u pretvorenu HTML datoteku. Ovaj parametar radi samo ako je useEmbeddedSvg postavljen na False.
  • maxPageOneFile (int) : Postavlja najveći broj stranica koje treba uključiti u jednu HTML datoteku. Ako PDF ima više stranica od navedenog broja, bit će generirano više HTML datoteka, od kojih će svaka sadržavati podskup stranica.
  • useHighQualityEmbeddedSvg (bool) : Kada je postavljeno na True, osigurava korištenje visokokvalitetnih verzija ugrađenih SVG slika u procesu HTML konverzije.

Tipični tijek rada pretvaranja PDF-a u HTML u Pythonu pomoću Spire.PDF za Python:

  1. Napravite objekt klase PdfDocument i učitajte PDF dokument pomoću metode PdfDocument.LoadFromFile(string fileName) .
  2. Postavite opcije konverzije pomoću metode PdfDocument.ConversionOptions.SetConvertHtmlOptions() .
  3. Pretvorite dokument u HTML format i spremite ga pomoću metode PdfDocument.SaveToFile(string fileName, FileFormat.HTML) .

Korisnici mogu preuzeti Spire.PDF za Python i uvesti ga u svoje projekte ili ga instalirati s PyPI:

pip install Spire.PDF

Pretvorite PDF u jednu HTML datoteku pomoću Python koda

Ovaj primjer koda pokazuje kako pretvoriti PDF u HTML s Pythonom izravno bez postavljanja opcija pretvorbe. U ovom slučaju samo trebamo učitati PDF datoteku metodom LoadFromFile i spremiti je kao HTML datoteku metodom SaveToFile . Pretvorena HTML datoteka bit će jedna HTML datoteka sa slikama i drugim elementima ugrađenim u nju.

Primjer koda:

from spire.pdf.common import *
from spire.pdf import *

# Craete an object of PdfDocument class
doc = PdfDocument()

# Load a PDF document
doc.LoadFromFile("G:/Documents/ARCHITECTURE.pdf")

# Convert the document to HTML
doc.SaveToFile("output/HTML/PDFToHTML.html", FileFormat.HTML)
doc.Close()

Pretvorite PDF u HTML sa slikama odvojenim pomoću Pythona

Postavljanjem useEmbeddedSvg parametra na False, možemo pretvoriti PDF dokument u HTML datoteku sa slikama i CSS datotekama odvojenim od njega i pohranjenim u mapu. To olakšava daljnje uređivanje pretvorene HTML datoteke i izvođenje dodatnih operacija na slikama.

Primjer koda:

from spire.pdf.common import *
from spire.pdf import *

# Craete an object of PdfDocument class
doc = PdfDocument()

# Load a PDF document
doc.LoadFromFile("ARCHITECTURE.pdf")

# Disable embedding SVG
doc.ConvertOptions.SetPdfToHtmlOptions(False)

# Convert the document to HTML
doc.SaveToFile("output/HTML/PDFToHTMLWithoutEmbeddingSVG.html", FileFormat.HTML)
doc.Close()

Pretvorite PDF u više HTML datoteka pomoću Pythona

Uz preduvjet da je useEmbeddedSvg postavljen na False, metoda SetPdfToHtmlOptions dopušta upotrebu parametra maxPageOneFile (int) za određivanje maksimalnog broja stranica uključenih u svaku pretvorenu HTML datoteku. Ova značajka omogućuje dijeljenje PDF dokumenata u procesu pretvorbe. Na primjer, postavljanje parametra na 1 rezultirat će pretvaranjem svake stranice u zasebnu HTML datoteku.

Primjer koda:

from spire.pdf.common import *
from spire.pdf import *

# Craete an object of PdfDocument class
doc = PdfDocument()

# Load a PDF document
doc.LoadFromFile("ARCHITECTURE.pdf")

# Disable embedding SVG
doc.ConvertOptions.SetPdfToHtmlOptions(False, False, 1, False)

# Convert the document to HTML
doc.SaveToFile("output/HTML/PDFToHTMLLimitingPage.html", FileFormat.HTML)
doc.Close()

Besplatna licenca i tehnička podrška

Spire.PDF za Python korisnicima nudi besplatnu licencu za probnu verziju za sve korisnike, uključujući poslovne i pojedinačne korisnike. Prijavite se za privremenu licencu za korištenje ovog Python API-ja za pretvaranje PDF dokumenata u HTML datoteke, uklanjajući sva ograničenja upotrebe ili vodene žigove.

Za sve probleme do kojih dođe tijekom pretvorbe PDF-a u HTML pomoću ovog API-ja, korisnici mogu potražiti tehničku podršku na forumu Spire.PDF .

Zaključak

Ovaj članak demonstrira kako pretvoriti PDF u HTML pomoću Pythona i nudi razne opcije pretvorbe, kao što je pretvorba u jednu HTML datoteku, odvajanje HTML datoteka od slika i dijeljenje PDF dokumenta tijekom pretvorbe. Uz Spire.PDF za Python, korisnici imaju pristup jednostavnoj i učinkovitoj metodi za Python u pretvorbi PDF-a u HTML, podržavajući fleksibilne mogućnosti prilagodbe.

Izvor:https://www.e-iceblue.com/en/pdf/pdf-to-html-python.html?_gl=1*12th70z*_up*MQ..*_gs*MQ..&gclid=CjwKCAiAtNK8BhBBEiwA8wVt95YFD8VIm_r5QJgLIOHFtvFyuBHJDlKu80kZFoyx-9Cvw_UGKiCtQhoCNTIQAvD_BwE#5

By Abel

Leave a Reply

Your email address will not be published. Required fields are marked *