Tesseract'ın LSTM Tabanlı Yeni Sürümü

Anıl Özbek - Aralık 12, 2018

Google, 29 Ekim 2018'de optik karakter tanıma motoru Tesseract'ın 4.0 sürümünü yayımladı. Tesseract 4.0, yeni bir sinir ağı (LSTM) tabanlı optik karakter tanıma motoru, güncellenmiş inşa sistemi, çeşitli iyileştirmeler ve bazı hata düzeltmeleriyle birlikte geliyor.

Tesseract, unicode desteği sunan ve 100'den çok dili tanıyabilen bir OKT motorudur. Yeni dilleri tanımak için eğitilebilir ve mobil cihazlarda, videolarda ve daha birçok başka yerde metin tespiti için kullanılabilir.

Şimdi Tesseract 4.0'daki yeniliklere bir bakalım:

Yeni Sinir Ağı (LSTM) Tabanlı OKT Motoru

Yeni OKT motoru, LSTM'lere dayanan büyük doğruluk kazanımlı bir sinir ağı sistemi kullanıyor. Siz de yeni bir modeli sıfırdan eğitebilir veya mevcut bir modeli eğiterek ince ayar verebilirsiniz.

Önceki sürümlerdeki birincil OKT motoru olan örüntü eşleştirme temelli OKT motoru bu sürümde hala mevcut. Ama Hintçe ve Arapça için kullanılan Cube OKT motoru kod tabanından kaldırıldı. Yeni LSTM tabanlı motor, bu diller için çok daha iyi performans gösterdiği için Cube motoruna artık ihtiyaç duyulmuyor.

LSTM tabanlı OKT motoru hakkında daha çok bilgi için Tesseract'taki yeni sinir ağı sistemine genel bakış belgesine göz atabilirsiniz.

Güncellenmiş İnşa Sistemi

Tesseract 4.0 semantik sürümleme kullanır ve Leptonica'nın 1.74.0 veya daha yüksek bir sürümünü gerektirir. Eğer Tesseract'ı kaynak kodundan inşa etmek isterseniz güçlü bir C++11 desteğine sahip derleyiciye ihtiyacınız olacaktır.

Tesseract’ın kaynak ağacı, 4.0 sürümünde yeniden düzenlendi ve birim testleri ana depoya eklendi. Ayrıca Tesseract'ı eski OKT motorunun kodu olmadan derlemenizi sağlayan yeni bir seçenek de eklendi.

Hata Düzeltmeleri

Tesseract'ın bu sürümündeki başlıca hata düzeltmeleri de aşağıdaki gibi:

Eğitim verilerinin oluşturulmasındaki sorunlar düzeltildi.
PDF'ler işlenirken ikili görüntülerde oluşan bozulmalar giderildi.
OpenCL kodundaki sorunlar düzeltildi. OpenCL artık eski Tesseract OKT motoru için iyi çalışıyor ancak performans henüz iyileştirilmedi.

Diğer İyileştirmeler

Tesseract 4.0'da çok sayfalı TIFF kullanımı geliştirildi.
PDF oluşturmada iyileştirmeler yapıldı.
Eğitim araçlarına sürüm bilgisi ve iyileştirilmiş yardım metinleri eklendi.

Daha çok bilgi için resmi sürüm notlarına göz atabilirsiniz.

Türkçe için yaptığım birkaç denemede bu yeni sürümün daha başarılı olduğunu gördüm. Bu sürüm de Türkçe için %100 çalışmıyor tabii. Buna eğitimin yetersiz olması veya benim resimlere yeteri kadar önişleme yapmamış olmam neden olmuş olabilir.

Fedora 29 depolarına bu sürüm gelecek mi bilmiyorum ama isterseniz Fedora 30 paketlerini deneyebilirsiniz.

Kaynaklar

Tesseract version 4.0 releases with new LSTM based engine, and an updated build system - Packt Hub

Bu Blogda Ara

maidis