GNU/Linux'a Türkçe Okumayı Öğretmek



GNU/Linux'a Türkçe okumayı öğretmek için yapmamız gerekenleri yukarıdaki iki resim özetliyor. Tek yapmamız gereken onu eğitmek. Konuya böyle tepe taklak girdiğim ve pek bir şey anlaşılamayacağı için daha önceki yazılarımdan bir alıntı yaparak durumu kurtarmaya çalışayım:
Optik karakter tanıma YZ'nın en çok kullanım alanı bulan dallarından biridir. OKT basitçe resimlerdeki yazıları tekrar kullanabileceğiniz yazı haline çevirme işlemidir. Windows kullanıcılarının aklına hemen Abbyy FineReader gelecektir. Linux kullanıcıları da kısa bir süre öncesine kadar Ocrad ve GOCR programlarını kullanarak yazılarına kavuşuyorlardı. Ama sahneye tesseract-ocr çıkana kadar işler Türkçe severler için pek iyi gitmiyordu.
Bu yazı ile Tesseract OCR'yi Türkçe için nasıl eğitebileceğimizi ve bu konuda yardım etmek isteyenlerin ne şekilde katkıda bulunabileceklerini göstermeye çalışacağım. İşe gerekli programları sıralayarak başlayayım:
Listedekileri temin ettikten sonra buradaki belgeden yararlanarak eğitime başlayacağız. Buradaki en önemli adım eğitim için kullanılacak resmin hazırlanması. Resim için gerekli yazı bir kere oluşturulduktan sonrası görece kolay. Yazıyı hazırlarken dikkat etmemiz gerekenler ise şöyle:
  • Her karakter için yeterli örnek olmalıdır. Her karakter için on örnek iyi olacaktır fakat sık rastlanmayan karakterler için beş örnek de kullanılabilir.
  • Sık rastlanan karakterler için daha fazla (en azından yirmi) örnek oluşturulmalıdır.
  • Yazı oluşturulurken harflerin dışındaki özel karakterler gruplanmamalıdır. Örneğin, "Al bu takatukaları takatukacıya götür, takatukacı takatukaları, takatukalamam derse, al o takatukaları takatukalattırmadan geri getir 1234567890!'^+%&/()=?" oldukça kötü sayılır. Bunun yerine "Al bu 10 - 15 takatukayı (sarı olanları) 7 sokak ötedeki götür! Anladın mı? Fiyatta anlaşırsanız (10$) takatukalat yoksa boş ver..." daha gerçekçi bir örnek olacaktır. Bu sayede özel karakterlerin doğru olarak tanınma şansı arttırılacaktır.
  • Yazı dosyasını oluştururken yazıların pek fazla iç içe (birleşik) olmaması sağlanmalıdır.
  • Eğitim dosyası bir sayfa olacak şekilde hazırlanmalıdır.
  • Farklı boyutlu yazı tipleri için ayrıca eğitim yapmaya gerek yoktur. 10 punto yeterli olacaktır (bundan deneme yapmadan pek emin değilim).
Eğitim için gerekli yazı oluşturulduktan sonra farklı yazı tipleri seçilerek resim olarak kaydedilecek. Bundan sonra da
tesseract yazıtipi.tif yazıtipi batch.nochop makebox
komutuyla Box dosyası oluşturulacak. Oluşan bu Box dosyası büyük ihtimalle bir çok hata içerecek, burada da biz devreye gireceğiz ve TesseractTrainer ile bu hataları gidereceğiz (bu program olmadan önce normal bir metin düzenleyici ile bunu yapmıştım ve oldukça zor olmuştu). Burada çok önemli bir ayrıntıya dikkat etmeliyiz: hata yapmamaya (örneğin, I | l ! oldukça benzer olsa da hepsi farklı bir karakter). Hata yaparsak programı yanlış eğitmiş oluruz, bu da ileride yanlış okumalara neden olacaktır. Bu yüzden her yazı tipi için bir eğitimci ve bir kontrolcü iyi olacaktır.
Bu islemlerden sonrası pek zor olmayacaktır çünkü zaman alacak kısımlar yukarıda bahsetmiş olduklarım. Eğer yardım etmek isterseniz, buyurun :)
Yapılacaklar:
  • Eğitim için kullanılacak yazının hazırlanması ve farklı yazı tipleri ile uygun boyutlarda kaydedilmesi.
  • Görev paylaşımı yapılarak gönüllülere bir veya birden fazla yazıtipi eğitim görevinin verilmesi.
  • Bundan sonrası için yapılacakların planlanması :)
  • TesseractTrainer'ın kullanıcı arayüzünün Türkçe'ye çevrilmesi.
  • Zemberek'in kelime listesinin kullanılıp kullanılamayacağının kontrolü.

Yorumlar

  1. Sayın Anıl Özbek, size attığım e-posta ulaşması galiba. Tesseract-OCR programının arayüz çalışmaları olduğunu tesadüf eseri öğrendim (proje adı lector) ve programın Türkçe karekter desteği çalışmalarında yardımcı olmak isterim. Özgürlükiçin.com' da şu http://www.ozgurlukicin.com/forum/ofis/3984/?page=1 adreste veya günlüğünüzde yazışabilir miyiz? bu arada TessractTrainer programını elimden geldiğince Türkçelerştirdim ve metin oluşturma çalışmalarını yapmaya başladım. Eğer vaktiniz olursa metini inceler ve yanlış kısımları düzeltirseniz sevinirim. Çalışmalarınızda başarılar.

    YanıtlaSil
  2. Uğur Tutar Tesseract OCR'yi Türkçe için eğitmiş ve bir arayüz hazırlamış.

    YanıtlaSil
  3. http://anilozbek.blogspot.com/2008/03/yaz-tipleri-gkten-dyor.html

    YanıtlaSil
  4. Merhaba,
    Nereden indirebilirim? Link ölü. Madem hazırlamışsınız, eğitim tifini de verseydiniz ya. Yine de teşekkürler, ben kendi eğitim resmimi hazırlamaya gidiyorum, nasıl diyorlar, tekerleği tekrar icad etmek mi?

    YanıtlaSil
  5. Merhaba, yazıyı yazdıktan sonra, ben yardımcı olabilirimleri bekledim. Ama uzun bir süre beklediğim gerçekleşmedi. Gerçekleştiğinde ise ben uzaklardaydım. Sonra da başka şeyler oldu.

    Eğitim için gereken resim dosyasını vermedim, çünkü daha iyi bir taneyi tartışarak oluşturabileceğimizi düşünmüştüm.

    Eğitimiyle uğraşmadan önce 3.00 sürümünü incelemenizi tavsiye ederim:

    http://bugs.pardus.org.tr/show_bug.cgi?id=8232#c8

    Kolay gelsin.

    YanıtlaSil

Yorum Gönder

sen de yaz yaz yaz buraya yaz bütün sözlerini

Bu blogdaki popüler yayınlar

Mızıka Tabları Nasıl Okunur

Muhtar Kellesi

conio.h