Alati koji prevode PDF, Word ili Html sa jednog jezika na drugi

Da, postoji nekoliko alata za Linux terminal koji mogu prevesti PDF, Word (.docx) ili HTML fajlove sa jednog jezika na drugi i sačuvati izlaz u PDF, Word ili HTML. Evo nekoliko mogućnosti:


1. translate-shell + pandoc (za prevođenje tekstualnih fajlova i konverziju)

translate-shell (trans naredba) je moćan alat za prevođenje fajlova pomoću Google, Bing, Yandex ili LibreTranslate API-ja.

Instalacija

Na Ubuntu/Debian:

sudo apt install translate-shell pandoc

Na Arch Linuxu:

sudo pacman -S translate-shell pandoc

Upotreba

  1. Prevođenje teksta iz HTML, DOCX ili PDF fajla: pandoc input.docx -t plain | trans -b -s en -t sr > output.txt Ovde se .docx konvertuje u običan tekst i prevodi na srpski.
  2. Konvertovanje prevedenog teksta nazad u DOCX ili PDF: pandoc output.txt -o output.docx pandoc output.txt -o output.pdf
  3. Za HTML fajlove: pandoc input.html -t plain | trans -b -s en -t sr | pandoc -o output.html

Prednosti: Besplatan, jednostavan za upotrebu.
Mane: Gubi formatiranje složenih fajlova (posebno PDF-ova).


2. DeepL API + pandoc (za kvalitetniji prevod)

Ako želiš bolji kvalitet prevođenja, možeš koristiti DeepL API.

Instalacija deepl biblioteke za Python

pip install deepl

Python skripta za prevođenje DOCX/PDF/HTML

import deepl
import subprocess

translator = deepl.Translator("API_KEY")  # Zameni sa svojim DeepL API ključem

# Konvertuj PDF u TXT pomoću pdftotext
subprocess.run(["pdftotext", "input.pdf", "temp.txt"])

# Učitaj tekst
with open("temp.txt", "r", encoding="utf-8") as f:
    text = f.read()

# Prevedi tekst
translated_text = translator.translate_text(text, source_lang="EN", target_lang="SR")

# Sačuvaj kao DOCX
with open("output.txt", "w", encoding="utf-8") as f:
    f.write(translated_text)

subprocess.run(["pandoc", "output.txt", "-o", "output.docx"])

Prednosti: Vrlo kvalitetan prevod.
Mane: Potreban je API ključ (plaćeni ili besplatni uz ograničenja).


3. Google Translate API + pandoc (za prevođenje sa formatiranjem)

Ako koristiš Google Translate API, možeš koristiti Python biblioteke googletrans ili deep-translator.

Instalacija

pip install googletrans==4.0.0-rc1
pip install deep-translator

Python kod za prevođenje PDF-a

from deep_translator import GoogleTranslator
import subprocess

# Konvertuj PDF u TXT
subprocess.run(["pdftotext", "input.pdf", "temp.txt"])

# Učitaj tekst
with open("temp.txt", "r", encoding="utf-8") as f:
    text = f.read()

# Prevedi tekst
translator = GoogleTranslator(source="en", target="sr")
translated_text = translator.translate(text)

# Sačuvaj u DOCX
with open("output.txt", "w", encoding="utf-8") as f:
    f.write(translated_text)

subprocess.run(["pandoc", "output.txt", "-o", "output.docx"])

Prednosti: Besplatan, može da koristi Google Translate.
Mane: API ograničenja, gubi formatiranje PDF-a.


4. poetry + OmegaT (za profesionalni prevod sa formatiranjem)

Ako ti treba alat koji zadržava formatiranje DOCX/PDF fajlova, OmegaT je dobar izbor.

Instalacija OmegaT

sudo apt install omegat

Upotreba

  1. Otvori OmegaT (omegat komanda u terminalu).
  2. Učitaj PDF/DOCX fajl.
  3. OmegaT će automatski sačuvati prevedeni fajl sa formatiranjem.

Prednosti: Zadržava formatiranje.
Mane: Potrebna je ručna interakcija.


Zaključak

Ako želiš najbrži način:

  • translate-shell + pandoc (besplatno, ali gubi formatiranje).

Ako ti treba bolji kvalitet prevođenja:

  • DeepL API ili Google Translate API + pandoc.

Ako želiš očuvanje formatiranja:

  • OmegaT za DOCX/PDF.

Koja opcija ti najviše odgovara? 😊

By Abel

Leave a Reply

Your email address will not be published. Required fields are marked *