OpenNMT

OpenNMT, nöral makine çevirisi ve nöral dizi öğrenmesi için açık kaynaklı bir ekosistemdir.
Aralık 2016'da Harvard NLP grubu ve SYSTRAN tarafından başlatılan OpenNMT, o zamandan beri çeşitli araştırma ve endüstri uygulamalarında kullanılmıştır. Halen SYSTRAN ve Ubiqus tarafından geliştirilmesi sürdürülmektedir.
OpenNMT iki popüler derin öğrenme çatısında gerçekleme sunmaktadır:
  • OpenNMT-py: PyTorch'un kullanım kolaylığından yararlanan kullanıcı dostu ve çok kipli bir gerçeklemedir.
  • OpenNMT-tf: TensorFlow ekosistemine dayanan modüler ve kararlı bir gerçeklemedir.
Her gerçeklemenin kendine özgü özellikleri vardır ancak benzer hedefleri paylaşır:
  • Son derece yapılandırılabilir model mimarileri ve eğitim prosedürleri
  • Gerçek dünya uygulamalarında kullanım için verimli model sunma yetenekleri
  • Metin oluşturma, etiketleme, özetleme, görüntüden metne dönüştürme ve konuşmadan metne dönüştürme gibi diğer görevler için eklentiler
OpenNMT ekosistemi ayrıca tam bir nöral makine çevirisi iş akışını kapsayacak çeşitli projeler içerir:
  • CTranslate2: OpenNMT modelleri için özel C++ çıkarsama motoru.
  • Tokenizer: C++ ve Python UPA'ları olan hızlı ve özelleştirilebilir metin belirtkeleme (tokenizasyon) kütüphanesi.
  • nmt-wizard-docker: Standart bir arayüz kullanarak eğitim ve çeviri yapmak için Docker temelli sarmalayıcı.
  • nmt-wizard: Görev başlatıcı ve uzak platform (SSH, EC2, vb.) görüntüleyici.
OpenNMT'nin tarihindeki önemli olaylar da aşağıdaki gibi özetlenebilir:
  • Ekim 2019: OpenNMT-py ve OpenNMT-tf modellerini desteklemek için orijinal CTranslate'in yeniden tasarımı CTranslate2 yayınlandı.
  • Ağustos 2018: OpenNMT, WNMT 2018'de CTranslate motorunu kullanarak tek bir işlemci çekirdeğinde çalışan en hızlı modeli yayınladı.
  • Temmuz 2018: Orijinal LuaTorch gerçeklemesinin son sürümü çıktı, artık bu gerçeklemenin yerini OpenNMT-py ve PyTorch alacak.
  • Mart 2018: İlk OpenNMT çalıştayı Paris'te düzenlendi ve dünyanın dört bir yanından 100'den çok insan bir araya geldi.
  • Kasım 2017: TensorFlow sürümü OpenNMT-tf yayınlandı.
  • Mart 2017: Facebook AI Research ekibiyle birlikte PyTorch sürümü OpenNMT-py yayınlandı.
  • Ocak 2017: OpenNMT modelleri için özel ve hafif bir çıkarsama motoru olan CTranslate yayınlandı.
  • Aralık 2016: LuaTorch'u kullanan orijinal gerçekleme OpenNMT'nin ilk sürümü yayınlandı.
  • Haziran 2016: Harvard NLP grubundan Yoon Kim, OpenNMT girişiminin temelini oluşturan seq2seq-attn projesini yayınladı.
OpenNMT'yi kullanmaya karar verirseniz ilk önce PyTorch ve TensorFlow arasında bir seçim yapmanız gerekiyor. Her iki çatının da güçlü ve zayıf yönleri var, hangisinin daha uygun olacağına ve daha kolay entegre edilebileceğine bakmalısınız.

Her OpenNMT gerçeklemesi kendine has bir tasarıma ve benzersiz özelliklere sahip. Örneğin, OpenNMT-py özetleme, konuşmadan ve görüntüden metne dönüştürme gibi görevler için daha iyi desteğe sahiptir ve genellikle daha hızlıdır. OpenNMT-tf ise modüler mimarileri ve dil modellemesini destekler. Daha çok ayrıntı için her gerçeklemenin kendi GitHub deposuna bakabilirsiniz.

Genel sorular sormak veya destek istemek için gidebileceğiniz ilk yer OpenNMT forumudur. Genellikle bir-iki günde sorularınıza cevap alabilirsiniz. Hata bildirimleri içinse doğrudan GitHub depolarını kullanabilirsiniz.

Bir NMT modelini eğitmek için sadece iki dosyaya ihtiyacınız olacaktır: bir kaynak ve bir de hedef dosya. Bu dosyaların her bir satırında bir cümle vardır ve kelimeler boşlukla ayrılmıştır. Bu tür dosyaları OPUS'tan, Turkish Parallel Corpora'dan veya benzer diğer kaynaklardan bulabilirsiniz.

Teoride herhangi bir bilgisayar üzerinde eğitim işlemini yapabilirsiniz, ancak pratikte gerçekten küçük veri kümeleri haricinde makul bir sürede eğitimin tamamlanmasını istiyorsanız bir grafik işlemci birimine ihtiyacınız olacaktır. OpenNMT geliştiricileri en az 8 GB belleğe sahip bir NVIDIA GPU kullanılmasını önermekte.

Yorumlar

  1. Çapımızda ilgilendiğimiz güzel bir proje. Bilgilendirme için teşekkürler.

    YanıtlaSil

Yorum Gönder

sen de yaz yaz yaz buraya yaz bütün sözlerini

Bu blogdaki popüler yayınlar

Diğer Dillerde Hoşçakal

Mızıka Tabları Nasıl Okunur

conio.h