PDF'den MOBI'ye Dönüşüm: PDF -> XML

Anıl Özbek - Mart 26, 2012

PDF e-kitap okuyucuları için tercih etmek isteyeceğim biçimlerin başında yer almıyor. Bunun birkaç haklı nedeni var. Her ne kadar cihazların genelinde PDF yerleşik olarak desteklense de e-kitap okuyucunun yerel biçimi kadar seçenek ve özelleştirme imkanı sunulmuyor. Örneğin bu yazı dizisini yazmamı cihaz üzerinde yatay biçimde okumaya çalışsam dahi iki punto büyüklüğünden fazla görüntü elde edemediğim PDF biçimli bir kitap sağladı.

PDF'den MOBI'ye dönüşüm yapmak için daha basit ve otomatik yöntemler olabilir ama ben sadece kolayca erişebileceğim araçlar kullandığım için işi biraz uzatmış olabilirim. Yarın öbür gün bu işlemi calibre ile kolayca yapabiliyormuşuz dediğim bir yazı görebilirsiniz belki. Şu an kullanabileceğim çalışan bir calibre yok elimde.

Şimdi elimizdeki PDF'yi MOBI'ye çevirmeye başlayalım. İlk önce PDF'yi XML biçimine çevirmem gerekiyor. Bunun nedenini sonraki bölümlerde göreceğimiz için burada sadece kullanacağım pdftohtml ve bu aracın ait olduğu (/ şu anda bünyesinde bulunduğu) proje Poppler'den bahsedeceğim.

Poppler
Poppler, Xpdf-3.0 kod tabanına dayanan özgür bir PDF tarama kütüphanesidir. GNU/Linux üzerinde bu iş için kullanılan kütüphanelerden en yaygın olanıdır, KDE ve GNOME gibi popüler masaüstü ortamlarının PDF görüntüleyicilerince kullanılmaktadır. Geliştirimi freedesktop.org tarafından desteklenmektedir.

Poppler projesini Kristian Høgsberg, iki temel amaçla başlatmıştır:

Bakım çabalarını merkezileştirmek için PDF tarama fonksiyonelliğini paylaşımlı kütüphane olarak sunmak
Xpdf'nin hedeflerini aşmak ve modern işletim sistemleriyle bütünleşmek

Poppler 2011'de yayınlanan 0.18 sürümüyle ISO 32000-1'in veya diğer adıyla PDF standardının tam bir uyarlamasını sunmaktadır ve onun form ve açıklama ekleme özelliklerini destekleyen ilk büyük özgür PDF kütüphanesidir.

Poppler ismi Futurama animasyon serisinin The Problem with Popplers bölümünden gelmektedir.

Ne yazık ki Pardus 2011'de Poppler'in eski bir sürümü bulunuyor. Bu da pek konumuzla ilgili olmasa da bazı PDF dosyalarının görüntülenememesine neden oluyor. Böyle dosyalarla karşılaşırsanız şansınızı Google Chrome ile deneyebilirsiniz.

pdftohtml
Poppler ile çeşitli yardımcı araçlar da gelmektedir. Bunlar doğrudan Poppler paketinden çıkabileceği gibi Poppler'in bir alt paketinden de çıkabilir. Örneğin Pardus'ta bu araçlar poppler-utils'te bulunmaktadır.

pdftohtml, bu yardımcı araçlardan biridir ve PDF dosyalarını HTML veya XML'ye dönüştürmektedir.

pdftohtml'nin kullanımı aşağıdaki gibidir:

pdftohtml [seçenekler] <PDF-dosyası> [<html-dosyası> <xml-dosyası>]

pdftohtml'nin alabileceği parametreler ve kısa açıklamalarıysa şöyle:

-f <tamsayi>	Çevrilecek ilk sayfa
-l <tamsayi>	Çevrilecek son sayfa
-q	Hiçbir bilgi veya hata mesajını gösterme
-h	Kullanım bilgilerini göster
-help	Kullanım bilgilerini göster
-p	.pdf bağlantılarını .html olarak değiştir
-c	Komplike dosya üret
-s	Tüm sayfaları içeren tek bir belge üret
-i	Resimleri yoksay
-noframes	Çerçeveleri üretme
-stdout	Standart çıktıyı kullan
-zoom <kayarnokta>	PDF dosyasını yaklaştır (öntanımlı: 1.5)
-xml	İşlemek için XML üret
-hidden	Gizli metinleri yazdır
-nomerge	Paragrafları birleştirme
-enc <dizge>	Çıktı karakter kodlama ismi
-dev <dizge>	Ghostscript için çıktı cihaz ismi (png16m, jpeg vb.)
-fmt <dizge>	Splash çıktısı için resim dosya biçimi (png veya jpg)
-v	Telif haklarını ve sürüm bilgilerini göster
-opw <dizge>	Malik parolası (şifrelenmiş dosyalar için)
-upw <dizge>	Kullanıcı parolası (şifrelenmiş dosyalar için)
-nodrm	DRM ayarlarını yoksay

Şimdi kullanacağımız komut:

pdftohtml -xml kitap.pdf

Böylece ihtiyaç duyduğumuz XML dosyasını elde ederek birinci bölümü tamamlamış oluyoruz. Daha fazla bilgi için kaynaklardan yararlanabilirsiniz.

Kaynaklar:

Bu Blogda Ara

maidis

PDF'den MOBI'ye Dönüşüm: PDF -> XML

Yorumlar

Yorum Gönder

Bu blogdaki popüler yayınlar

Diğer Dillerde Hoşçakal

Mızıka Tabları Nasıl Okunur

conio.h