Common Voice

Common Voice, özgür bir konuşma tanıma veritabanı oluşturmak için Mozilla tarafından başlatılan kitle kaynaklı bir projedir. Proje, örnek cümleleri seslendiren ve diğer kullanıcıların kayıtlarını inceleyen gönüllüler tarafından desteklenmektedir.
Seslendirilen cümleler CC0 kamu malı lisanslı bir ses veri tabanında toplanır. Bu, geliştiricilerin veritabanını, sesten metne çeviren uygulamalarda kısıtlamasız ve maliyetsiz olarak kullanabilmelerini sağlar. Common Voice; Amazon Echo, Siri ve Google Asistan gibi büyük şirketlerin dil asistanlarına cevap olarak ortaya çıkmıştır.

Common Voice'a ek olarak, Mozilla, Baidu'nun DeepSpeech mimarisinin bir TensorFlow gerçeklemesi olan konuşma tanıma motoru DeepSpeech'i de geliştiriyor. DeepSpeech, diğer şeylerin yanı sıra, Common Voice verilerini de kullanıyor ve Amerikan İngilizcesi için insan hata oranı yüzde 5,83 olan LibriSpeech-Clean-Test-Corpus'taki testlerde yüzde 11'lik bir kelime hata oranı (WER) elde ettiği iddia ediliyor.

Common Voice'ın İngilizce veritabanı, LibriSpeech'ten sonra özgürce erişilebilen en geniş ikinci dil veritabanı olmuş durumda. Veriler 29 Kasım 2017'de yayımlandığında, dünya genelinde 20.000'den çok kullanıcı toplam uzunluğu 500 saat olan 400.000 geçerliği denetlenmiş cümleye ses verdi.

Katkı

Ses sistemleri yaratmak için çok büyük miktarlarda ses verisine ihtiyaç vardır. Büyük şirketlerin kullandığı verilerin çoğuysa, insanların çoğunluğunun kullanımına açık değildir. Bu yüzden ses tanıma sistemlerini herkese açık ve herkes tarafından erişilebilir hale getirmek için bu proje başlatıldı.

Siz de herkesin cihazlara ve web'e yönelik yenilikçi uygulamalar geliştirmede kullanabileceği, özgür bir ses veritabanı oluşturulmasına yardımcı olmak için sesinizi bağışlayabilir veya bağışlanan seslerin doğruluğunu denetleyebilirsiniz:
Katkı vermek için yardıma ihtiyacınız olursa veya tartışmak istediğiniz bir konu olursa Konuşma Anlama Teknolojileri isimli Telegram grubuna katılabilirsiniz:

İlgili Projeler

  • LibriSpeech: LibriVox'tan yaklaşık 1000 saatlik İngilizce sesli kitap dil derlemi (CC-BY 4.0).
  • TED-LIUM: İngilizce TED Sohbetleri'nden elde edilmiş yaklaşık 118 saatlik konuşma derlemi (CC-BY-NC-ND 3.0).
  • Tatoeba: Çevirileriyle birlikte farklı dillerdeki örnek cümle seslendirme koleksiyonu (CC-BY 2.0).
  • VoxForge: Julius gibi özgür konuşma motoru motorlarını desteklemek için farklı dillerde dil derlemi (GPL 3).

Kaynaklar

Yorumlar

Bu blogdaki popüler yayınlar

Mızıka Tabları Nasıl Okunur

Muhtar Kellesi

conio.h