İki Kelimeden Elli Bin Dokuz Yüz Elli İki Kelimeye

mythes-tr'yi ilgi çekici hale getirmek için birkaç gündür biraz uğraştım ve ortaya bir şeyler çıktı diyebilirim. Kemik Doğal Dil İşleme Grubu'nun hazırlamış olduğu Türkçe Anlamsal İlişkiler Veri Kümesi üzerinde sed, awk, cut, sort, cat gibi çeşitli komut satırı uygulamalarını ve Kate'yi kullanarak eşanlamlı kelime sözlüğü için gerekli biçime çevirdim.

Sözlüğün bu en son halini test etmek isteyenler proje sayfasındaki şu arşiv dosyasını indirebilir. Arşivi indirip açtıktan sonra içinden çıkan th_tr_TR_v2.dat ve th_tr_TR_v2.idx dosyalarını /usr/share/mythes dizinine kopyalamanız gerekiyor. Daha sonra sözlüğü LibreOffice ve diğer uyumlu ofis araçlarıyla kullanabilirsiniz. Tüm bunların öncesinde dağıtımınızın deposundan mythes paketini yüklediğinizden ve kullanacağınız uygulamada mythes'i etkinleştirdiğinizden emin olunuz.

Sözlüğün kesinlikle kullanılabilecek seviyede olmadığını da lütfen unutmayınız. Otomatik yöntemlerle oluşturulduğu için binlerce hatta on binlerce hata barındırıyor olabilir şu anda. Bunları düzeltmek de projeye katkı vereceklerin elinde. Daha önce söylediğim gibi tek başıma en fazla yılda 300 - 400 kelime ekleyebilir veya düzenleyebilirim. Tek başıma yıllarca böyle emek isteyen bir proje üzerinde çalışmak için de motivasyonum olacağını zannetmiyorum.

Sonunda projenin deposuna kelime-listesi.txt dosyasını ekledim. Buradan kelime aralıkları seçip bu kelimelerin eşanlamlılarının çıkarılmasına yardım edebilirsiniz. Üzerinde çalışmak istediğiniz kelime aralığına karar verdikten sonra durum takip sistemini kontrol edin. Başka biri bu kelime aralığı (ör: gıpta kelimesinden gidiş kelimesine kadar olan kelimeler) üzerinde çalışıyorsa başka bir kelime aralığı seçmeniz gerekmekte. Kimsenin üzerinde çalışmadığı bir kelime aralığı seçtiğinize emin olduktan sonra bu kelime aralığınını diğer katkıcılara bildirmek için bir kayıt açınız. Çalışmalarınızı yaparken th_tr_TR_v2.dat dosyası üzerinde çalışınız. Otomatik eklemelerden gelenler az da olsa işinize yarayacaktır. Burada yazılı ve çevrimiçi kaynaklardan yararlanarak eksik eşanlamlıları eklemeniz, yanlış yazılmış kelimeleri düzeltmeniz ve bir kelimenin eş anlamlısı olmayan kelimeleri silmeniz gerekmekte. Bunları yaptıktan sonra eşanlamlı kelimeleri anlam gruplarına ayırmalısınız ve her anlam grubunun sözcük türünü belirtmelisiniz. Tüm bunları yaptıktan sonra çalışmanızı içeren kısımları açtığınız kayda ekleyebilirsiniz. Ben de bunları son bir kontrol ederek ana sözlük dosyasına yazacağım. Sonra üzerinde çalıştığınız kelime aralığını kelime-listesi.txt dosyasından sileceği. Kaydı çözüldü olarak kapatacağım ve isminizi THANKS dosyasına yazacağım. Süreç kabaca böyle. Lütfen anlamadığınız veya size mantıksız gelen kısımları bildirin.

Kelime katkısı dışında iletişimin de çok önemli olduğunu söylemiştim hatırlarsınız bir önceki yazıda. Bu konuda da yeni fikirleriniz veya daha önceden belirtilenler hakkında söyleyecekleriniz varsa lütfen çekinmeyin.

Yine önceki yazıda bahsettiğim kitap listesini projenin viki bölümüne ekledim. İlgilenenler oradan bakabilir. Depodaki betikler bölümüne de iki küçük betik ekleyeceğim. Bunlar dışında özel bir planım yok. Proje hakkında üç yazı planlarken dört yazı oldu, epey bir konuştum diyebilirim bu konu hakkında. Bu uzun bir süreliğine günlükteki mythes-tr konulu son yazı olacak. Bundan sonraki gelişmeleri (eğer katılımcı bulur da gelişme olursa) proje sayfasından takip edebilirsiniz.

Dört yazılık bu seriyi okuduğunuz veya en azından yazılara şöyle bir göz attığınız için teşekkür ve sözlüğü şu an için kesinlikle kaynak olarak değerlendirmemenizi sadece test amaçlı kullanmanızı tavsiye ederim.

Başka ilginç projelerde görüşmek üzere.

Yorumlar

  1. Eğer kelime listesinde olup da th_tr_TR_v2.dat dosyasında yoksa bunları da eklemeniz gerekmekte elbette. Ayrıca bazı kelimelerin eşanlamlıları olmayabilir. Bu son derece normal. Bu tip kelimelerle karşılaştığınızda bunları ilgili kayda eklemek için not alarak diğer kelimelere geçebilirsiniz.

    YanıtlaSil
  2. Merhaba. Kelime listesine bu posttan itibaren bir katkı yapılmamış gibi görünüyor. Acaba akademik alan ya da özel sektördeki herangi bir çalışma kapsamında bu konuda sizin datasetiniz dışında bir örneği var mı? Bulabildiğim en kapsamlı liste size ait olan gibi görünüyor.

    YanıtlaSil
  3. Merhaba, tespitiniz doğru, kelime olarak projeye yeni giriş yap(a)madım uzun süredir. Konuyla ilgili bahsi önemsiz küçük birkaç çalışma ve düzenli olarak internette araştırma yapıyorum ama görebildiğim halka açık akademik veya özel bir çalışma yok konuyla ilgili (projede yararlandığım ve kaynak olarak gösterdiğim çalışmaları bildiğinizi varsayıyorum).

    En erken bir - iki yılı bulacak benim proje üzerinde tekrar istediğim hız ve hevesle çalışmam. Belki o zaman ortam daha müsait olur ve yardım da bulabilirim projenin işe yarar bir hal alması için.

    YanıtlaSil
  4. Lütfen şuna da bir göz atın:
    http://ab.org.tr/ab16/bildiri/21.pdf

    YanıtlaSil

Yorum Gönder

sen de yaz yaz yaz buraya yaz bütün sözlerini

Bu blogdaki popüler yayınlar

Diğer Dillerde Hoşçakal

Fedora 24'te GRUB 2 Önyükleyici Temasını Değiştirme

Müfettiş Gadget'taki Kötü Adamın Yüzü Açığa Çıkmış