Bilgisayarlı görme ve doğal dil işlemenin çalışma alanlarından biri olan görüntüden metin üretme (image capturing), doğal bir dil kullanarak görüntü içeriğini otomatik olarak tanımlama görevidir. Bu çalışmada, MS COCO veri seti üzerinde İngilizce dili için encoder-decoder tekniğine dayalı bir otomatik altyazı oluşturma yaklaşımı önerilmiştir. Önerilen yaklaşımda, görüntü özniteliklerini çıkarmak için encoder olarak Evrişimli Sinir Ağı (CNN) mimarisi ve görüntülerden altyazı oluşturmak için bir decoder olarak Tekrarlayan Sinir Ağı (RNN) mimarisi kullanılmıştır. Önerilen yaklaşımın performansı BLEU, METEOR ve ROUGE_L değerlendirme kriterleri kullanılarak değerlendirilmiş ve her bir görüntüden 5 cümle elde edilmiştir. Deneysel sonuçlar, modelin görüntülerdeki nesneleri doğru bir şekilde algılamada tatmin edici olduğunu göstermektedir.
Doğal Dil İşleme Görüntü Yakalama Metin Tarama Metin Tahmini Derin Öğrenme
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | MBD |
Yazarlar | |
Yayımlanma Tarihi | 30 Eylül 2022 |
Gönderilme Tarihi | 25 Temmuz 2022 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 34 Sayı: 2 |