PDF'den MOBI'ye Dönüşüm: XML -> HTML

Aslında XML'ye dönüşüm yapmadan doğrudan HTML'ye dönüşüm yapabilirdik. Ama şuradan detaylarını görebileceğiniz nedenlerle XML'ye de dönüşüm yapıyoruz. pdftohtml ürettiği HTML dosyalarında olabildiğince üzerinde işlem yapılan PDF'nin yerleşimine sadık kalmaya çalışıyor. PDF'deki her satırın sonuna <br> ekleyerek bölüyor ve her sayfanın sonuna da <hr> koyuyor. Bu da PDF'nin aslına bağlı kalınmasını sağlasa da sonuçta ortaya akış (flow) yoksunu ve e-kitap okuyucularında okuması zevksiz bir metin çıkıyor. Bu durumu tersine çevirmek istediğimizde devreye giren isimse pdfreflow oluyor.

pdfreflow
pdfreflow, pdftohtml'nin ürettiği XML çıktıları üzerinde işlem yaparak metinleri paragraflı yapıya çeviriyor. Aynı zamanda tirelemeleri, sayfa numaralarını, sayfa başlıklarını ve altbaşlıkları da kaldırabilmektedir.

pdfreflow'un kullanımı aşağıdaki gibi:

pdfreflow [seçenekler] [girdidosyası]

pdfreflow'u biraz daha yakından tanımak için parametrelerine bakalım:

--absoluteYazı tipi boyutları asıl belge ile aynı (öntanımlı değil) öntanımlı yazı tiplerini göreceli boyutlarla eşleştirir
-b, --bottom=MAKSTEPEÜst bölümü MAKSTEPE'ye eşit veya ondan daha büyük olan metinleri kırp
-c, --center=ÖZELLİK-
-d, --dontreflow=SAYFALARBelirtilen sayfa aralıklarında işlem yapma, örneğin: "1,2,4-9,100"
-f, --first=İLKSAYFABaşlangıç sayfası (öntanımlı 1)
-l, --last=SONSAYFABitiş sayfası (öntanımlı belgenin son sayfasıdır)
--nonfictionAlıntı öbeği ile paragraf girintisinde aynı biçimi kullanan kitaplar için
-r, --ragrightMetin solda düzenli, iki yana yaslama (öntanımlı iki yana yaslanır)
-s, --shortlines-
-t, --top=MINTEPEÜst bölümü MINTEPE'ye eşit veya ondan daha küçük olan metinleri kırp
--showdebugHata ayıklama seçeneklerini göster
-v, --versionKullanılan sürümü göster
-?, --helpYardımı göster

Yanlış bir şeyler söylememek için -c ve -s parametreleri için yaptığım çevirileri sildim, bunlar hakkında bilgisi olanlar yorum olarak ekleyebilir isterse. -b ve -t parametreleriyle sayfanın üstünde ve altında bulunan ve e-kitap okuyucuda işimize yaramayacak her sayfadaki sayfa numarası, yazar ismi, kitap ismi, bölüm ismi gibi bölümleri kırpabilirsiniz. Henüz denemediğim için nasıl kullanıldığını bilmiyorum ama birkaç denemeye çözülebilir. Son olarak bahsetmek istediğim parametre de -d, bu parametreyle önsöze kadarki ilk sayfalarda işlem yapılmamasını ve özgün biçiminin korunmasını sağlayabilirsiniz.

Burada kullanacağımız komutsa:

pdfreflow kitap.xml

Bu arada Pardus'ta pdfreflow'u yüklemek için aşağıdaki komutları kullanabilirsiniz:

sudo pisi bi https://svn.pardus.org.tr/pardus/playground/maidis/2011/office/misc/pdfreflow/pspec.xml -d
sudo pisi it pdfreflow*.pisi
rm pdfreflow*.pisi

Kaynaklar

Yorumlar

Bu blogdaki popüler yayınlar

Fedora 24'te GRUB 2 Önyükleyici Temasını Değiştirme

Müfettiş Gadget'taki Kötü Adamın Yüzü Açığa Çıkmış

Sony Kulaklığınızın Sol Teki Bozulduysa