Türkçe Metin Tanıma Sonuçlarının İyileştirilmesi Projemiz

LaciOCR eklentisi, Türkçe doğal dil işlemenin gücü ile metin tanıma araçlarının başarımını yükseltmek için tasarlanan bir ürün olup LaciTek bünyesinde KOSGEB Araştırma Geliştirme Inovasyon Destek Programı çerçevesinde geliştirilmektedir. Ürünümüzün başarımlarının kayda değer seviyeye ulaştığını ve çok yakında hizmete gireceğini duyurmaktan mutluluk duyuyoruz.

Ürün detayı

Bildiğiniz üzere piyasada bir çok OCR motoru var. İçlerinde ciddi yüksek başarım olanına sahip olanların lisans maliyeti çok yüksekken daha ucuz ve ücretsiz olanların başarımları tatmin edici düzeyde değil. Yeni ürünümüz LaciOCR eklentisi, mevcut OCR motorlarının çıktıları üzerinde çalışan doğal dil işleme tabanlı bir modül. İnsan beyni OCR çıktısında hatalı tespit edilen sözcüklerin doğrusunu cümlenin gelişinden çıkarabiliyorsa yapay zeka bunu neden yapamasın dedik ve işe koyulduk. Geldiğimiz noktada ürünümüz Türkçe 0-20 yıl arası, çok farklı kağıt türleri ve tarama kalitelerinde derlenmiş test kümesi üzerinde ABBYY Fine Reader(v11.1 ile yapılan testlerde) çıktıları üzerinde %2-3*, Tesseract (v3.04 ile yapılan testlerde) çıktıları üzerinde ise %30-40* ortalamalı başarımlar yakalamaktadır.

Örneğin bir evrakta “Bugün okula gittim” cümlesindeki a harfinin silik çıktığını ve OCR motorunun bunu “Bugün okulu gittim” olarak algıladığını düşünün. Beynimiz evrak görseline bakmaya ihtiyaç duymadan bunu düzeltmemize yardım eder ve doğrusunun ne olduğunu hemen anlarız. İşte LaciOCR eklentisi de tam olarak böyle çalışıyor, görsele hiç bakmadan sadece çıktılar üzerinden hatalı içeriği anlıyor ve düzeltiyor/düzeltmeler öneriyor.

LaciOCR_EvrakGoruntusu

LaciOCR tarafından düzeltilmiş ABBYY FineReader v11 çıktısı

LaciOCR eklentisinin bir OCR motoru olmayıp OCR motoru çıktıları üzerinde sonuç düzeltme ve iyileştirmesi yapan bir ürün olduğunu bir kez daha vurgulamak isteriz.

Arşiv sayısallaştırma alanındaki uzmanlığımız bize ürünü geliştirirken her tip dokümanda en üst başarımı yakalamamız gerektiği noktasında ışık tuttuğundan ürünümüzü en acımasız evraklar üzerinde en ağır testlere tabi tuttuk, ama yine de siz kendi gözlerinizle görmelisiniz. Ürünümüz hakkında bilgi almak, demo ve sunum talep etmek için bizimle iletişime geçebilirsiniz.

 

* OCR başarımının çok kafa karıştırıcı bir sorun olduğunu ve uygulamaların kiminin karakter baslı, kiminin sözcük bazlı başarımlar raporladıklarını ve işin en kötüsü tamamının bunu tertemiz pırıl pırıl evraklar üzerindeki başarımlarını değerlendirerek verdiklerini biliyoruz. Ürün başarımının dokümana ve bağlama bağlı olarak değişeceğini göz ardı etmemek gerekir.