Sadržaj
- Pregled pretvorbe
- PDF u jednu HTML datoteku
- U HTML s odvojenim slikama
- PDF u višestruki HTML
- Besplatna licenca
- Zaključak
- Vidi također
Instaliraj s Pipom
pip instalirati Spire.PDF
Kopiraj u međuspremnik
Povezane veze
PDF datoteke popularan su izbor za dijeljenje i distribuciju dokumenata, ali izdvajanje i prenamjena PDF sadržaja može biti prilično izazovno. Srećom, pretvaranje PDF datoteka u HTML pomoću Pythona nudi izvrsno rješenje za pronalaženje PDF informacija i prenamjenu, što poboljšava pristupačnost, mogućnost pretraživanja i prilagodljivost. Osim toga, HTML format omogućuje tražilicama indeksiranje sadržaja, što povećava vjerojatnost da će biti otkriven na webu. Štoviše, uz Pythonovu fleksibilnost i jednostavnost korištenja, i početnici i iskusni programeri mogu koristiti Python za jednostavno i učinkovito pretvaranje PDF-a u HTML .
Ovaj se članak fokusira na to kako pretvoriti PDF u HTML u Python programima. Uglavnom uključuje sljedeće teme:
- Pregled pretvaranja PDF-a u HTML pomoću Pythona
- Pretvorite PDF u jednu HTML datoteku pomoću Python koda
- Pretvorite PDF u HTML sa slikama odvojenim pomoću Pythona
- Pretvorite PDF u više HTML datoteka pomoću Pythona
- Besplatna licenca i tehnička podrška
Pregled pretvaranja PDF-a u HTML pomoću Pythona
Pythonovi opsežni API-ji pružaju pogodnost za razne operacije obrade PDF dokumenata. Spire.PDF za Python jedan je od moćnih API-ja koji može izvoditi razne operacije na PDF dokumentima, uključujući pretvaranje, uređivanje i spajanje PDF dokumenata . A pretvaranje PDF-a u HTML s Pythonom može se bez napora implementirati s ovim API-jem.
U Spire.PDF za Python klasa PdfDocument predstavlja PDF dokument. Možemo učitati PDF datoteku pomoću metode LoadFromFile() u okviru ove klase i spremiti dokument u drugim formatima, poput HTML-a, kako bismo postigli jednostavnu konverziju iz PDF-a u HTML.
Štoviše, ovaj API također nudi metodu SetConvertHtmlOptions() pod svojstvom PdfDocument.ConversionOptions za postavljanje opcija ugrađivanja slike tijekom pretvorbe. Ispod su parametri koji se mogu proslijediti ovoj metodi za postavljanje maksimalnog broja stranica, opcije ugrađivanja SVG-a, opcije ugrađivanja slike i opcije kvalitete SVG-a:
- useEmbeddedSvg (bool) : Kada je postavljeno na True, dopušta ugrađivanje SVG-a u pretvorenu HTML datoteku. Rezultirajuća HTML datoteka uključivat će sve elemente iz PDF dokumenta, uključujući slike, u jednu HTML datoteku.
- useEmbeddedImg (bool) : Kada je postavljeno na True, dopušta ugrađivanje slika u pretvorenu HTML datoteku. Ovaj parametar radi samo ako je useEmbeddedSvg postavljen na False.
- maxPageOneFile (int) : Postavlja najveći broj stranica koje treba uključiti u jednu HTML datoteku. Ako PDF ima više stranica od navedenog broja, bit će generirano više HTML datoteka, od kojih će svaka sadržavati podskup stranica.
- useHighQualityEmbeddedSvg (bool) : Kada je postavljeno na True, osigurava korištenje visokokvalitetnih verzija ugrađenih SVG slika u procesu HTML konverzije.
Tipični tijek rada pretvaranja PDF-a u HTML u Pythonu pomoću Spire.PDF za Python:
- Napravite objekt klase PdfDocument i učitajte PDF dokument pomoću metode PdfDocument.LoadFromFile(string fileName) .
- Postavite opcije konverzije pomoću metode PdfDocument.ConversionOptions.SetConvertHtmlOptions() .
- Pretvorite dokument u HTML format i spremite ga pomoću metode PdfDocument.SaveToFile(string fileName, FileFormat.HTML) .
Korisnici mogu preuzeti Spire.PDF za Python i uvesti ga u svoje projekte ili ga instalirati s PyPI:
pip install Spire.PDF
Pretvorite PDF u jednu HTML datoteku pomoću Python koda
Ovaj primjer koda pokazuje kako pretvoriti PDF u HTML s Pythonom izravno bez postavljanja opcija pretvorbe. U ovom slučaju samo trebamo učitati PDF datoteku metodom LoadFromFile i spremiti je kao HTML datoteku metodom SaveToFile . Pretvorena HTML datoteka bit će jedna HTML datoteka sa slikama i drugim elementima ugrađenim u nju.
Primjer koda:
from spire.pdf.common import * from spire.pdf import * # Craete an object of PdfDocument class doc = PdfDocument() # Load a PDF document doc.LoadFromFile("G:/Documents/ARCHITECTURE.pdf") # Convert the document to HTML doc.SaveToFile("output/HTML/PDFToHTML.html", FileFormat.HTML) doc.Close()
Pretvorite PDF u HTML sa slikama odvojenim pomoću Pythona
Postavljanjem useEmbeddedSvg parametra na False, možemo pretvoriti PDF dokument u HTML datoteku sa slikama i CSS datotekama odvojenim od njega i pohranjenim u mapu. To olakšava daljnje uređivanje pretvorene HTML datoteke i izvođenje dodatnih operacija na slikama.
Primjer koda:
from spire.pdf.common import * from spire.pdf import * # Craete an object of PdfDocument class doc = PdfDocument() # Load a PDF document doc.LoadFromFile("ARCHITECTURE.pdf") # Disable embedding SVG doc.ConvertOptions.SetPdfToHtmlOptions(False) # Convert the document to HTML doc.SaveToFile("output/HTML/PDFToHTMLWithoutEmbeddingSVG.html", FileFormat.HTML) doc.Close()
Pretvorite PDF u više HTML datoteka pomoću Pythona
Uz preduvjet da je useEmbeddedSvg postavljen na False, metoda SetPdfToHtmlOptions dopušta upotrebu parametra maxPageOneFile (int) za određivanje maksimalnog broja stranica uključenih u svaku pretvorenu HTML datoteku. Ova značajka omogućuje dijeljenje PDF dokumenata u procesu pretvorbe. Na primjer, postavljanje parametra na 1 rezultirat će pretvaranjem svake stranice u zasebnu HTML datoteku.
Primjer koda:
from spire.pdf.common import * from spire.pdf import * # Craete an object of PdfDocument class doc = PdfDocument() # Load a PDF document doc.LoadFromFile("ARCHITECTURE.pdf") # Disable embedding SVG doc.ConvertOptions.SetPdfToHtmlOptions(False, False, 1, False) # Convert the document to HTML doc.SaveToFile("output/HTML/PDFToHTMLLimitingPage.html", FileFormat.HTML) doc.Close()
Besplatna licenca i tehnička podrška
Spire.PDF za Python korisnicima nudi besplatnu licencu za probnu verziju za sve korisnike, uključujući poslovne i pojedinačne korisnike. Prijavite se za privremenu licencu za korištenje ovog Python API-ja za pretvaranje PDF dokumenata u HTML datoteke, uklanjajući sva ograničenja upotrebe ili vodene žigove.
Za sve probleme do kojih dođe tijekom pretvorbe PDF-a u HTML pomoću ovog API-ja, korisnici mogu potražiti tehničku podršku na forumu Spire.PDF .
Zaključak
Ovaj članak demonstrira kako pretvoriti PDF u HTML pomoću Pythona i nudi razne opcije pretvorbe, kao što je pretvorba u jednu HTML datoteku, odvajanje HTML datoteka od slika i dijeljenje PDF dokumenta tijekom pretvorbe. Uz Spire.PDF za Python, korisnici imaju pristup jednostavnoj i učinkovitoj metodi za Python u pretvorbi PDF-a u HTML, podržavajući fleksibilne mogućnosti prilagodbe.