IBM'in Yapay Zekası Resimleri İsimlendirebiliyor

Resimlere başlık yazmak sıkıcı lakin gerekli ve ekseriyetle editörler tarafından sevilmeyen bir iş. Neyse ki bunu da artık yapay zekâ yapabilecekmiş üzere duruyor. Bilgisayar Görüşü ve Desen Tanıma 2019 isimli konferansta IBM’deki bir küme araştırmacı tarafından yeni bir model sunuldu. Bu model, fotoğraflara ikna edici bir formda insan imali üzere duran, farklı ve yaratıcı başlıklar üretebiliyor.

Modeli tasarlamak kolay bir süreç değildi. Algoritma tasarlanırken otomatik başlık üretiminin ana meselesini çözmeyi gerektirdi. Bu sorun; kelam dizimsel olarak yanlışsız lakin homojen, yapay ve anlamsal olarak anlaşılmayan cümlelerin ortaya çıkmasıydı. Araştırmacılar, bu sorunu dikkat çekme modeli adını verdikleri bir modülle çözdüler. Bu modül, incelediği fotoğraftaki kareleri kullanarak cümleler oluşturmasını sağlıyor. Her oluşturma aşamasında takımın yapa zekâ modeli, bir evvelki basamaktan kelamlı ya da görsel işaretlerden yararlanma seçimine sahip.

Oluşturulan başlıkların fazla yapay olmasını önlemek için araştırma kadrosu, 'Üretken Muhalif Ağ' (GANs) ismini verdikleri bir sistemden yararlandı. Bu iki kesimli ağ, örnek üreten kaynaklardan ve gerçek örnekleri oluşturulmuş örneklerden ayırmaya çalışan bir ayrıştırıcıdan oluşuyordu. Bir öteki ayrıştırıcı modülü ise cümlelerin doğallığını ölçüyordu.

IBM'in Yapay Zekası Resimleri İsimlendirebiliyor

Algoritmanın çözmesi gereken başka bir sorun ise çok uygunluktu. Çok uygunluk, öğrenilen nesnelerin görünmeyen içeriklerinde ortaya çıkmasına neden oluyordu. Yapay zekânın eğitim verisindeki bu sapmayı önlemek için araştırmacıların bir teşhis cihazı inşa etmesi gerekti. Böylece araştırmacılar, hangi başlıklarda çok uyumluluk olduğunu görebildiler.

Başlık üretme algoritması beşerli bir deneye de sokulmuş. Deneyde; insanlardan hangi başlıkların makine tarafından üretildiğini seçmeleri ve başlıkların, verilen fotoğraflarla ne kadar ilgili olduklarını kıymetlendirilmesi istenmiş. Modelin deney sonucunda iyi performans sergilendiği belirtiliyor.

Araştırmacılar, “Resimlerin otomatik olarak isimlendirilmesi ve manzara manaya özelliği, yapay zekâyı görme konusunda sorunu olan beşerler için daha kullanışlı bir hâle getirecek ve onların gündelik ömürlerini kolaylaştıracak“ şeklinde bir açıklamada da bulundu.