PDF'den MOBI'ye Dönüşüm: PDF -> XML
PDF e-kitap okuyucuları için tercih etmek isteyeceğim biçimlerin başında yer almıyor. Bunun birkaç haklı nedeni var. Her ne kadar cihazların genelinde PDF yerleşik olarak desteklense de e-kitap okuyucunun yerel biçimi kadar seçenek ve özelleştirme imkanı sunulmuyor. Örneğin bu yazı dizisini yazmamı cihaz üzerinde yatay biçimde okumaya çalışsam dahi iki punto büyüklüğünden fazla görüntü elde edemediğim PDF biçimli bir kitap sağladı.
PDF'den MOBI'ye dönüşüm yapmak için daha basit ve otomatik yöntemler olabilir ama ben sadece kolayca erişebileceğim araçlar kullandığım için işi biraz uzatmış olabilirim. Yarın öbür gün bu işlemi calibre ile kolayca yapabiliyormuşuz dediğim bir yazı görebilirsiniz belki. Şu an kullanabileceğim çalışan bir calibre yok elimde.
Şimdi elimizdeki PDF'yi MOBI'ye çevirmeye başlayalım. İlk önce PDF'yi XML biçimine çevirmem gerekiyor. Bunun nedenini sonraki bölümlerde göreceğimiz için burada sadece kullanacağım pdftohtml ve bu aracın ait olduğu (/ şu anda bünyesinde bulunduğu) proje Poppler'den bahsedeceğim.
Poppler
Poppler, Xpdf-3.0 kod tabanına dayanan özgür bir PDF tarama kütüphanesidir. GNU/Linux üzerinde bu iş için kullanılan kütüphanelerden en yaygın olanıdır, KDE ve GNOME gibi popüler masaüstü ortamlarının PDF görüntüleyicilerince kullanılmaktadır. Geliştirimi freedesktop.org tarafından desteklenmektedir.
Poppler projesini Kristian Høgsberg, iki temel amaçla başlatmıştır:
Poppler ismi Futurama animasyon serisinin The Problem with Popplers bölümünden gelmektedir.
Ne yazık ki Pardus 2011'de Poppler'in eski bir sürümü bulunuyor. Bu da pek konumuzla ilgili olmasa da bazı PDF dosyalarının görüntülenememesine neden oluyor. Böyle dosyalarla karşılaşırsanız şansınızı Google Chrome ile deneyebilirsiniz.
pdftohtml
Poppler ile çeşitli yardımcı araçlar da gelmektedir. Bunlar doğrudan Poppler paketinden çıkabileceği gibi Poppler'in bir alt paketinden de çıkabilir. Örneğin Pardus'ta bu araçlar poppler-utils'te bulunmaktadır.
pdftohtml, bu yardımcı araçlardan biridir ve PDF dosyalarını HTML veya XML'ye dönüştürmektedir.
pdftohtml'nin kullanımı aşağıdaki gibidir:
pdftohtml [seçenekler] <PDF-dosyası> [<html-dosyası> <xml-dosyası>]
pdftohtml'nin alabileceği parametreler ve kısa açıklamalarıysa şöyle:
Şimdi kullanacağımız komut:
pdftohtml -xml kitap.pdf
Böylece ihtiyaç duyduğumuz XML dosyasını elde ederek birinci bölümü tamamlamış oluyoruz. Daha fazla bilgi için kaynaklardan yararlanabilirsiniz.
Kaynaklar:
PDF'den MOBI'ye dönüşüm yapmak için daha basit ve otomatik yöntemler olabilir ama ben sadece kolayca erişebileceğim araçlar kullandığım için işi biraz uzatmış olabilirim. Yarın öbür gün bu işlemi calibre ile kolayca yapabiliyormuşuz dediğim bir yazı görebilirsiniz belki. Şu an kullanabileceğim çalışan bir calibre yok elimde.
Şimdi elimizdeki PDF'yi MOBI'ye çevirmeye başlayalım. İlk önce PDF'yi XML biçimine çevirmem gerekiyor. Bunun nedenini sonraki bölümlerde göreceğimiz için burada sadece kullanacağım pdftohtml ve bu aracın ait olduğu (/ şu anda bünyesinde bulunduğu) proje Poppler'den bahsedeceğim.
Poppler
Poppler, Xpdf-3.0 kod tabanına dayanan özgür bir PDF tarama kütüphanesidir. GNU/Linux üzerinde bu iş için kullanılan kütüphanelerden en yaygın olanıdır, KDE ve GNOME gibi popüler masaüstü ortamlarının PDF görüntüleyicilerince kullanılmaktadır. Geliştirimi freedesktop.org tarafından desteklenmektedir.
Poppler projesini Kristian Høgsberg, iki temel amaçla başlatmıştır:
- Bakım çabalarını merkezileştirmek için PDF tarama fonksiyonelliğini paylaşımlı kütüphane olarak sunmak
- Xpdf'nin hedeflerini aşmak ve modern işletim sistemleriyle bütünleşmek
Poppler ismi Futurama animasyon serisinin The Problem with Popplers bölümünden gelmektedir.
Ne yazık ki Pardus 2011'de Poppler'in eski bir sürümü bulunuyor. Bu da pek konumuzla ilgili olmasa da bazı PDF dosyalarının görüntülenememesine neden oluyor. Böyle dosyalarla karşılaşırsanız şansınızı Google Chrome ile deneyebilirsiniz.
pdftohtml
Poppler ile çeşitli yardımcı araçlar da gelmektedir. Bunlar doğrudan Poppler paketinden çıkabileceği gibi Poppler'in bir alt paketinden de çıkabilir. Örneğin Pardus'ta bu araçlar poppler-utils'te bulunmaktadır.
pdftohtml, bu yardımcı araçlardan biridir ve PDF dosyalarını HTML veya XML'ye dönüştürmektedir.
pdftohtml'nin kullanımı aşağıdaki gibidir:
pdftohtml [seçenekler] <PDF-dosyası> [<html-dosyası> <xml-dosyası>]
pdftohtml'nin alabileceği parametreler ve kısa açıklamalarıysa şöyle:
-f <tamsayi> | Çevrilecek ilk sayfa |
-l <tamsayi> | Çevrilecek son sayfa |
-q | Hiçbir bilgi veya hata mesajını gösterme |
-h | Kullanım bilgilerini göster |
-help | Kullanım bilgilerini göster |
-p | .pdf bağlantılarını .html olarak değiştir |
-c | Komplike dosya üret |
-s | Tüm sayfaları içeren tek bir belge üret |
-i | Resimleri yoksay |
-noframes | Çerçeveleri üretme |
-stdout | Standart çıktıyı kullan |
-zoom <kayarnokta> | PDF dosyasını yaklaştır (öntanımlı: 1.5) |
-xml | İşlemek için XML üret |
-hidden | Gizli metinleri yazdır |
-nomerge | Paragrafları birleştirme |
-enc <dizge> | Çıktı karakter kodlama ismi |
-dev <dizge> | Ghostscript için çıktı cihaz ismi (png16m, jpeg vb.) |
-fmt <dizge> | Splash çıktısı için resim dosya biçimi (png veya jpg) |
-v | Telif haklarını ve sürüm bilgilerini göster |
-opw <dizge> | Malik parolası (şifrelenmiş dosyalar için) |
-upw <dizge> | Kullanıcı parolası (şifrelenmiş dosyalar için) |
-nodrm | DRM ayarlarını yoksay |
Şimdi kullanacağımız komut:
pdftohtml -xml kitap.pdf
Böylece ihtiyaç duyduğumuz XML dosyasını elde ederek birinci bölümü tamamlamış oluyoruz. Daha fazla bilgi için kaynaklardan yararlanabilirsiniz.
Kaynaklar:
Yorumlar
Yorum Gönder
sen de yaz yaz yaz buraya yaz bütün sözlerini