PDF'den MOBI'ye Dönüşüm: PDF -> XML

PDF e-kitap okuyucuları için tercih etmek isteyeceğim biçimlerin başında yer almıyor. Bunun birkaç haklı nedeni var. Her ne kadar cihazların genelinde PDF yerleşik olarak desteklense de e-kitap okuyucunun yerel biçimi kadar seçenek ve özelleştirme imkanı sunulmuyor. Örneğin bu yazı dizisini yazmamı cihaz üzerinde yatay biçimde okumaya çalışsam dahi iki punto büyüklüğünden fazla görüntü elde edemediğim PDF biçimli bir kitap sağladı.

PDF'den MOBI'ye dönüşüm yapmak için daha basit ve otomatik yöntemler olabilir ama ben sadece kolayca erişebileceğim araçlar kullandığım için işi biraz uzatmış olabilirim. Yarın öbür gün bu işlemi calibre ile kolayca yapabiliyormuşuz dediğim bir yazı görebilirsiniz belki. Şu an kullanabileceğim çalışan bir calibre yok elimde.

Şimdi elimizdeki PDF'yi MOBI'ye çevirmeye başlayalım. İlk önce PDF'yi XML biçimine çevirmem gerekiyor. Bunun nedenini sonraki bölümlerde göreceğimiz için burada sadece kullanacağım pdftohtml ve bu aracın ait olduğu (/ şu anda bünyesinde bulunduğu) proje Poppler'den bahsedeceğim.

Poppler
Poppler, Xpdf-3.0 kod tabanına dayanan özgür bir PDF tarama kütüphanesidir. GNU/Linux üzerinde bu iş için kullanılan kütüphanelerden en yaygın olanıdır, KDE ve GNOME gibi popüler masaüstü ortamlarının PDF görüntüleyicilerince kullanılmaktadır. Geliştirimi freedesktop.org tarafından desteklenmektedir.

Poppler projesini Kristian Høgsberg, iki temel amaçla başlatmıştır:
  • Bakım çabalarını merkezileştirmek için PDF tarama fonksiyonelliğini paylaşımlı kütüphane olarak sunmak
  • Xpdf'nin hedeflerini aşmak ve modern işletim sistemleriyle bütünleşmek
Poppler 2011'de yayınlanan 0.18 sürümüyle ISO 32000-1'in veya diğer adıyla PDF standardının tam bir uyarlamasını sunmaktadır ve onun form ve açıklama ekleme özelliklerini destekleyen ilk büyük özgür PDF kütüphanesidir.

Poppler ismi Futurama animasyon serisinin The Problem with Popplers bölümünden gelmektedir.

Ne yazık ki Pardus 2011'de Poppler'in eski bir sürümü bulunuyor. Bu da pek konumuzla ilgili olmasa da bazı PDF dosyalarının görüntülenememesine neden oluyor. Böyle dosyalarla karşılaşırsanız şansınızı Google Chrome ile deneyebilirsiniz.

pdftohtml
Poppler ile çeşitli yardımcı araçlar da gelmektedir. Bunlar doğrudan Poppler paketinden çıkabileceği gibi Poppler'in bir alt paketinden de çıkabilir. Örneğin Pardus'ta bu araçlar poppler-utils'te bulunmaktadır.

pdftohtml, bu yardımcı araçlardan biridir ve PDF dosyalarını HTML veya XML'ye dönüştürmektedir.

pdftohtml'nin kullanımı aşağıdaki gibidir:

pdftohtml [seçenekler] <PDF-dosyası> [<html-dosyası> <xml-dosyası>]

pdftohtml'nin alabileceği parametreler ve kısa açıklamalarıysa şöyle:

-f <tamsayi>Çevrilecek ilk sayfa
-l <tamsayi>Çevrilecek son sayfa
-qHiçbir bilgi veya hata mesajını gösterme
-hKullanım bilgilerini göster
-helpKullanım bilgilerini göster
-p.pdf bağlantılarını .html olarak değiştir
-cKomplike dosya üret
-sTüm sayfaları içeren tek bir belge üret
-iResimleri yoksay
-noframesÇerçeveleri üretme
-stdoutStandart çıktıyı kullan
-zoom <kayarnokta>PDF dosyasını yaklaştır (öntanımlı: 1.5)
-xmlİşlemek için XML üret
-hiddenGizli metinleri yazdır
-nomergeParagrafları birleştirme
-enc <dizge>Çıktı karakter kodlama ismi
-dev <dizge>Ghostscript için çıktı cihaz ismi (png16m, jpeg vb.)
-fmt <dizge>Splash çıktısı için resim dosya biçimi (png veya jpg)
-vTelif haklarını ve sürüm bilgilerini göster
-opw <dizge>Malik parolası (şifrelenmiş dosyalar için)
-upw <dizge>Kullanıcı parolası (şifrelenmiş dosyalar için)
-nodrmDRM ayarlarını yoksay

Şimdi kullanacağımız komut:

pdftohtml -xml kitap.pdf

Böylece ihtiyaç duyduğumuz XML dosyasını elde ederek birinci bölümü tamamlamış oluyoruz. Daha fazla bilgi için kaynaklardan yararlanabilirsiniz.

Kaynaklar:

Yorumlar

Bu blogdaki popüler yayınlar

Mızıka Tabları Nasıl Okunur

conio.h

Muhtar Kellesi