29 Temmuz 2012

Türkçe Eşanlamlı Kelimeler Sözlüğüne Katkı Vermek

Konuyla ilgili yazdığım önceki iki yazıyı takip edenlerin hatırlayacağı üzere Özgür Ofis Yazılımları İçin Türkçe Eşanlamlılar Sözlüğü'nde özgür ofis yazılımlarında bir Türkçe eşanlamlı kelimeler sözlüğü olmadığından ve MyThes ile Eşanlamlılar Sözlüğü Oluşturmak'ta ise bu durumu tersine çevirmek için nasıl bir Türkçe eşanlamlı kelimeler sözlüğü oluşturulabileceğinden bahsetmiştim. Bu yazımda ise Türkçe eşanlamlı kelimeler sözlüğünün bir fikirden herkesin yararlanabileceği bir gerçeğe dönüşmesi için yapılabilecek ortak çalışmalardan söz edeceğim.


Kelime Katkısı

Eşanlamlı kelimeler sözlüğüne eşanlamlı kelimeler ekleyerek katkı vermek isteyenler için hangi kanalların kullanılabileceği hakkında birkaç gündür düşünüyorum. Bu iş için en ideal yöntem aslında özel bir internet sitesi. Böyle bir internet sitesi hem kelime ekleyeceklerin hem de bu kelimeler üzerinde düzenleme yapıp ana veritabanına ekleyeceklerin işini çok kolaylaştırırdı. Ama benim bunu yapacak teknik bilgiye sahip olmamam ve en azından şimdilik bu iş için bir gönüllü olmaması nedeniyle bu çözüm  ne yazık ki mümkün değil. Yine de pek çok alternatifimiz yok değil.

Bilgisayar dünyasıyla pek içli dışlı olmayan ama Türkçe ile ilgili olduğundan katkı vermek isteyenler için aklıma gelen en basit yöntem Google'nin ofis araçlarıyla oluşturulmuş basit bir form ve buradaki girdilerden oluşturulmuş bir elektronik tablo. Biraz elle biraz da otomatik olarak buradaki verilerden gerekli biçimlendirilmiş sözlük elde edilebilir. Burada bir sınırlamaya giderek sadece üç anlam grubu oluşturulabilmesini ayarladım. Bundan daha çoğu için alternatif yöntemlerden birinin tercihi daha mantıklı. Bu yöntem en basiti olmakla birlikte en pratiği değil.

Özgür yazılım dünyasından tanıdığım veya güvenebileceğim diğer kişilere doğrudan proje sayfasındaki biçimlendirilmiş sözlük dosyasına erişim hakkı vermeyi düşünüyorum. Doğrudan ana dosya üzerinde ekleme ve düzenleme yapabilir böylece birden fazla kişi. Kişilerin birbirlerinin ayağına basmasına neden olur mu bu, biraz daha düşünmem lazım. Durum takip sistemi etkili kullanıldığında bir sorun oluşmayabilir.

Aklıma gelen son yöntem de katkı vermek isteyenlerin proje sayfası üzerinden kayıt açması. Buradan çeşitli kelimeler için düzenlenmiş haldeki dosyalarını gönderebilirler. Bunlar da proje deposuna yazma hakkı olan kişi veya kişilerce kontrol edilip ana sözlük dosyasına eklenebilir.

Önümüzde bir yol haritası olabilmesi ve çalışmaların birbirini tekrar eder yapıya düşmemesi için bir kelime listesine ihtiyacımız olacak. Elimde yaklaşık 70 bin kelimelik bir liste var. Bu dosya üzerinde küçük birkaç çalışma daha yapıp veriler dizinine ekleyeceğim. Bu kelime listesi sayesinde gönüllüler, üzerinde çalışmak istedikleri kelime aralıklarını belirtebilir ve aynı kelimeler üzerinde başka kimseler de aynı anda çalışmamış olur. Eşanlamlıları yazılan kelimeler de tamamen listeden çıkarılarak ilerleme gözlenebilir.

Veriler dizinine ayrıca yararlanılabilecek başka kaynaklar da eklenebilir. Benzer bir düşüncenin sonuçları doğal dil işleme grubu Kemik'in Veri Kümelerimiz sayfasında görülebilir.

Proje sayfasında yer alan ikinci dizinse betikler isminde. Burada sözlük veritabanını düzenlemek veya farklı biçimlere çevirmek için küçük araçlar ve çevrimiçi sözlüklerden yararlanmak için kullanmamızın doğru olup olmayacağı hakkında tereddütlerimin olduğu indirme araçları yer alabilir ileride.

Bu alt başlıkta son olarak katkı vermek isteyeceklerin yararlanabileceği kaynaklardan bahsetmek istiyorum:



Sözlüğün Testi

Sözlük için eşanlamlı kelimeler eklemek sizin için zor göründüyse daha basit ama yine aynı şekilde önemli olan test konusunda katkı vermeyi düşünebilirsiniz. Bunun için yapmanız gerekenler sözlüğün en son halini indirmek, indeks dosyasını üretmek ve ilgili dizine kopyalama yaparak LibreOffice üzerinde hem yazım hem de anlam yönünden bir hata olup olmadığını kontrol etmek. Bulduğunuz hataları proje sayfasındaki durum takip sistemi üzerinden anlam hatası veya yazım hatası etiketlerini kullanarak bildirebilirsiniz. Bir kelime için yeterli eşanlamlı kelime olmadığını düşündüğünüzde de iyileştirme etiketiyle yeni önerilerinizi gönderebilirsiniz.

En son halini test etmek isterseniz indeksi ikinci yazıda anlatıldığı biçimde kendiniz oluşturmalısınız. Bunu yapmak istemezseniz düzenli aralıklarla güncellenecek olan arşiv dosyalarını da kullanabilirsiniz.


Sözlüğün Tanıtımı

Böyle bir projeye başlandığından daha çok kişinin haberdar olması için günlüğünüz veya sosyal ağlardaki hesaplarınız üzerinden tanıtım yazıları yazabilirsiniz. Böylece hem proje daha çok katkıcı bulabilir hem de böyle bir sözlüğe ihtiyacı olanlar ilerleyen zamanda ortaya çıkacak sözlükten yararlanabilir.


Sözlüğün Paketlenmesi

Sözlükteki kelimeler binli sayılara ulaştığı zaman paketleme konusu da düşünülmeli. Türkçe eşanlamlı kelimeler sözlüğü hem GNU/Linux dağıtımlarının depolarına eklenmeli hem de Windows kullanıcılarının da kolayca kullanabilmesi için LibreOffice eki biçiminde paketlenmeli.

Depoya indeks dosyası bulundurmayı düşünmüyorum. Çünkü bunu yaparsak her seferinde depoda sözlük ve indeksi eşzamanlamak gerekecek. İndeks dosyasını sadece arşive eklemeyi düşünüyorum. Hatta make veya cmake kullanılarak derleme ve kurulum işlemlerinin de kullanıcının sisteminde gerçekleştirilmesi sağlanabilir. Bu paketçilerin de işini kolaylaştıracaktır.


Maddi Destek

Projede kişilerden gelecek maddi desteğe sıcak bakmıyorum. İleride benden başka kişiler de projeye katıldığında gerekirse bu konuyu tekrar gözden geçirebiliriz. Yine de kişisel olarak maddi anlamda bir şeyler yapmayı çok istiyorsanız yukarıda bahsi geçen sözlükleri ve dilbilgisi, programlama, yapay zeka hakkında çeşitli kitaplar hediye edebilirsiniz projedeki kişilere. Bunun için projenin vikisinde bir istek listesi açılabilir.


İletişim

En önemli katkı alanını sona bıraktığımdan emin olabilirsiniz. Doğru kişi ve kurumlarla etkili iletişim bu projenin başarısını büyük oranda etkileyecektir diye düşünüyorum. İletişim süreçleri sonunda projeye muazzam maddi destek, iş gücü desteği ve veri kaynağı desteği kazandırabiliriz.

Maddi destek olarak Fatih Projesi geliyor aklıma ilk olarak. Oluşturacağımız eş anlamlı kelimeler sözlüğü hem öğrencilerin kullanacağı özgür ofis yazılımlarında yer alacak hem de istenirse küçük değişikliklerle doğrudan bir sözlük uygulamasına da dahil edilebilir. Fatih Projesi hakkında bir şeyler yapabileceğinizi düşünüyorsanız şu kayıtta belirtebilirsiniz. Maddi destek sağlayacak başka yerler de şu an aklıma gelmiyor. Sizin geliyorsa bunları belirtmekten çekinmeyiniz.

İş gücü desteği alabileceğimiz pek çok yer var. Özgür yazılım toplulukları (LibreOffice Türkiye, Özgürlükİçin, Pardus-Linux.Org, Ubuntu Türkiye...), üniversitelerin bilgisayar ve edebiyatla ilgili bölümleri, edebiyat toplulukları, doğal dil işleme grupları... Epey bir iş gücüne ihtiyacımız olacak. Basit bir hesapla bunu gözler önüne sereyim. Yaklaşık 70 bin kelimelik bir eşanlamlı kelimeler sözlüğü oluşturacağız. Projeye yapabileceğim en büyük kelime katkısı en iyi ihtimalle ortalama günde bir kelime olacaktır. Bu hızla bu sözlüğün kaç yılda tamamlanacağı ise şöyle hesaplanabilir: 70.000 / 365 = 192 yıl. O kadar daha yaşayacağımı hiç zannetmiyorum. Bu üç haneli yılı tek haneliye çevirmek için ne kadar katkıcıya ihtiyaç olduğu ortada.

Veri kaynağı desteği her şeyin seyrini değiştirebilecek güçte. Şu ana kadar yapılmış çalışmaları kullanmak için izin alabilirsek her şeye sıfırdan başlamamış oluruz. Bu da bizi epey bir önden başlatmış olur. Şimdi burada tek tek isimlerini anmak yerine doğrudan projenin durum takip sistemine kayıt açmaya başladım. İlgili kayıtlar üzerinden göz atabilirsiniz.


Sonuç

Biraz dağınık oldu ama aklımdakileri bir şekilde aktardığımı düşünüyorum. Bundan sonra ne olacağını ben de en az sizin kadar merak ediyorum. Projeye katılmayı veya dışarıdan katkı vermeyi düşünüyorsanız tam zamanı. Belki dünya durdukça kullanılacak bir eserde sizin de payınız olur böylece.