Sanatsal Tarz Aktarımı İçin Derin Sinir Ağ

Yaklaşık bir sene önce Düzce Üniversitesi Bilgisayar Mühendisliği bölümünde, bir ders ödevi olarak Leon A. Gatys, Alexander S. Ecker ve Matthias Bethge'nin A Neural Algorithm of Artistic Style makalesini anlatmıştım.

Aşağıda, sunu dosyasının düz metne aktarılmış ve zaten internette Türkçe olarak bulunan kısımların çıkarılmış halini bulabilirsiniz (sunum yaparken konunun anlaşılması için önbilgi olarak bunları da anlatmıştım, şimdi siz en üstte yer verdiğim kaynaklardan ilgili olanlara önceden bakabilirsiniz).

Konu uzmanlık alanıma değil hayranlık alanıma girdiği için yanlışlıkla doğru olarak ifade etmediğim veya olduğundan daha karmaşık şekilde anlattığım şeyler olabilir. Konu hakkında en sağlıklı bilgi için İngilizce makaleyi okumanızı tavsiye ederim. Bunun yanı sıra Ayyüce Kızrak'ın Derin Öğrenme ile Artistik Stil Transferi yazısını okuyabilir ve Yapay Zeka ile Artistik Stil Transferi videosunu izleyebilirsiniz.

Bu yazıyı yayımlamama da kısa süre önce yayımlanan bu yazı ve video vesile oldu. Derin öğrenmeyle ilgili Türkçe içerikler hızla artıyor ama hala bir konuda yazılmış tek bir kaynak olabiliyor. Aşağıdaki içerik de en azından alternatif bir kaynak olarak, ihtiyaç duyacakların hızlıca göz atabileceği şekilde dursun internette.

Kaynaklar

Cevap aradığımız soru şu: Belirli bir sanatsal tarzı, herhangi bir görüntüye uygulayabilir miyiz?

Derin Öğrenme

Derin Öğrenme, büyük miktarlarda etiketlenmiş eğitim verilerinden özellik saptama yapabilen sistemler oluşturmak için kullanılan çok seviyeli derin sinir ağlarıdır. Özetle:

Derin öğrenme = Büyük Veri + Büyük Hesaplama

Güzel Sanatlar

Güzel sanatlar, güzellik ve zevkle ilgilenen sanatlar için kullanılan bir ifadedir. Resim, heykel, mimarlık, müzik ve şiirden oluşan başlıca beş sanat alanını kapsar. Zaman zaman yazarların kendine özgü görüşlerinin ve anlayışlarının sonucu olarak başka birtakım sanatların da bu şemaya dahil edildiği görülür.

Yapay Zeka ve Güzel Sanatlar

Güzel sanatlarda, özellikle resim sanatında, insanlar bir görüntünün içeriği ve tarzı arasında karmaşık bir etkileşim oluşturarak benzersiz görsel deneyimler oluşturma becerisine sahiptir. Şimdiye kadar bu sürecin algoritmik temelleri bilinmiyordu ve benzer yeteneklere sahip hiçbir yapay sistem mevcut değildi. Bununla birlikte, nesne ve yüz tanıma gibi alanlarda, Derin Sinir Ağı olarak adlandırılan ve insan performansına yakın yeni bir yöntem geliştirildi.

Derin Sinir Ağı ile Görüntü Oluşturma

Burada, Derin Sinir Ağı üzerine kurulu yüksek algısal kalitede sanatsal görüntüler oluşturan yapay bir sistem tanıyacağız. Sistem, sanatsal görüntülerin oluşturulması için sinirsel bir algoritma sağlayarak rastgele seçilmiş görüntülerin içeriğini ve tarzını ayırmak ve birleştirmek için sinirsel gösterimler kullanmaktadır.

Çalışma ayrıca, performans için optimize edilmiş yapay sinir ağları ve biyolojik görme arasındaki çarpıcı benzerlikler ışığında, insanların sanatsal görüntüleri nasıl oluşturduğuna ve algıladıklarına dair algoritmik bir anlayış önermektedir.

Konvolüsyonel Sinir Ağları

Görüntü işleme görevlerinde en güçlü Derin Sinir Ağı sınıfına, Konvolüsyonel Sinir Ağları denir.
Konvolüsyonel Sinir Ağları, görsel bilgiyi hiyerarşik olarak ileriye doğru ileten küçük hesaplama birimlerinin katmanlarından oluşur.

Birimlerin her bir katmanı, girdi resimden belirli bir öznitelik çıkaran görüntü filtreleri olarak düşünülebilir. Dolayısıyla, belirli bir katmanın çıktısına özellik haritası denir ve bunlar, girilen görüntünün farklı şekilde filtrelenmiş sürümleridir.

Konvolüsyonel Sinir Ağları nesne tanıma konusunda eğitildiklerinde, nesne bilgisini, işleme hiyerarşisi boyunca giderek daha açık hale getiren bir görüntü temsili geliştirirler. Bu nedenle, ağın işleme hiyerarşisi boyunca, girdi görüntüsü giderek ayrıntılı piksel değerlerine kıyasla görüntünün gerçek içeriğini önemseyen gösterimlere dönüştürülür. Görüntüyü yalnızca o katmandaki özellik haritalarından yeniden yapılandırarak, her katmanın girdi görüntüsü hakkında içerdiği bilgileri doğrudan görselleştirebiliriz.

Ağdaki daha üst katmanlar nesnelerin üst düzey içeriğini ve girdi görüntüsündeki yerleşimini yakalar ancak yeniden yapılandırmanın tam piksel değerlerini tutmaz. Buna karşılık, alt tabakalarda yapılan yeniden yapılandırma, orijinal görüntünün tam piksel değerlerini üretir.

Bir girdi resminin tarzını temsil etmek için doku bilgilerini yakalamak için tasarlanmış bir özellik alanı kullanılmaktadır. Bu özellik alanı, ağın her katmanındaki filtre yanıtlarının üzerine inşa edilmiştir ve özellik haritalarının uzamsal kapsamı boyunca farklı filtre tepkileri arasındaki korelasyonlardan oluşur. Birden çok katmanın özellik korelasyonları eklenerek, girdi resmin değişmeyen, çok ölçekli bir temsili elde edilir ki bu da doku bilgisini yakalar, ancak genel yerleşimi almaz.

Belirli bir girdi görüntüsü, Konvolüsyonel Sinir Ağındaki (Convolutional Neural Network, CNN) her işleme aşamasında bir dizi filtrelenmiş görüntü olarak temsil edilir. Farklı filtre sayısı işlem hiyerarşisi boyunca artarken, filtre uygulanmış görüntülerin boyutu, bazı aşama örnekleme mekanizmalarıyla azaltılır ve bu, ağın her katmanı için toplam birim sayısında bir azalmaya neden olur.

Verilen bir girdi resminin tarz gösterimiyle eşleşen bir görüntü oluşturarak ağın farklı katmanlarına inşa edilmiş tarz özellik alanlarıyla yakalanan bu bilgiler görselleştirilebilir. Gerçekten de tarz özelliklerinden yeniden yapılandırma, renk ve yerelleştirilmiş yapılar açısından genel görünüşe benzeyen giriş resminin tekstüre edilmiş sürümlerini üretir. Dahası, girdi görüntüsünden elde edilen yerel görüntü yapılarının boyutu ve karmaşıklığı hiyerarşi boyunca artar.

Bu çalışmanın en önemli bulgusu, Konvolüsyonel Sinir Ağı'nda içerik ve tarz temsillerinin ayrı olabileceğidir. Yani, algıda anlamlı yeni görüntüler üretmek için her iki gösterimi bağımsız olarak değiştirebiliriz. Çalışmada bu bulguyu göstermek için içeriği ve tarzı temsil eden iki farklı kaynak görüntüyü birleştirerek görüntüler üretiliyor. Çalışmada sanatsal değeri olmayan gündelik normal fotoğrafların içerik temsili ve farklı sanat dönemlerinden çeşitli tanınmış eserlerin tarz temsilleri eşleştiriliyor.

Resimler, fotoğrafın içerik sunumuyla ve ilgili sanat parçasının tarz temsiliyle aynı anda eşleşen bir görüntü bulma yoluyla sentezlenir. Orijinal fotoğrafın genel yerleşimi korunurken, genel manzarayı oluşturan renkler ve yerel yapılar sanat eseri tarafından sağlanır. Böylece etkili bir şekilde, oluşturulan yeni görüntü fotoğrafla aynı içeriği gösteriyor olsa da tarzı sanat eserine benzeyecek şekilde değişir.

Yukarıda özetlendiği gibi, tarz temsili, sinir ağının birçok katmanını içeren çok ölçekli bir gösterimdir. Aşağıda gösterilen görüntülerde, tarz gösterimi tüm ağ hiyerarşisinde katmanlar içeriyor. Tarz ayrıca daha az sayıda alt katman içererek, daha farklı görsel deneyimlere yol açacak şekilde daha yerel olarak tanımlanabilir. Tarz temsillerini ağdaki daha üst katlara eşleştirirken, yerel görüntü yapıları gittikçe geniş ölçekte eşleştirilir ve daha yumuşak ve daha sürekli bir görsel deneyim elde edilir. Bu nedenle görsel açıdan en çekici görüntüler, genellikle tarz gösterimini ağdaki en yüksek katmanlarla eşleştirerek oluşturulur.

Bir fotoğrafın içeriğini birkaç tanınmış sanat tarzıyla birleştiren yukarıdaki görüntüler, fotoğrafın içerik sunumuyla ve resmin tarz gösterimiyle eşzamanlı olarak eşleşen bir görüntü bulunarak oluşturulmuştur. Üretilen görüntünün tarzını sağlayan resim, her panelin sol alt köşesinde gösterilmiştir.

Elbette resim içeriği ve tarzı tamamen çözülemez. Bir görüntünün içeriğini diğerinin tarzıyla birleştiren bir görüntüyü sentezlediğinizde, genellikle her iki kısıtla da aynı anda mükemmel şekilde eşleşen bir görüntü mevcut değildir. Bununla birlikte, resim sentezi sırasında küçülttüğümüz kayıp fonksiyonu, içerik ve tarz için iki terim içerir; bu terimler birbirinden iyi ayrılmıştır. Dolayısıyla, içeriği veya tarzı yeniden yapılandırmaya yönelik kuvveti sorunsuz bir şekilde düzenleyebiliriz. Tarz üzerine güçlü bir kuvvet, resmin görünümüyle eşleşen, etkili bir biçimde dokulu bir versiyon veren, ancak fotoğrafın herhangi bir içeriğini pek az gösteren sonuçlar çıkarır. İçeriğe çok kuvvet uygularken de fotoğrafı açıkça tanımlayabiliriz ancak resmin tarzı pek iyi uyuşmaz. Belirli bir çift kaynak görüntüden görsel olarak çekici görüntüler oluşturmak için içerik ve tarz arasındaki denge ayarlanmalıdır.

Resim tarzı için ayrıntılı sonuçlar yukarıda görülmektedir. Satırlar, Konvolüsyonel Sinir Ağı katmanlarının artan alt kümelerinin tarz gösterimi eşleştirmesinin sonucunu göstermektedir. Tarz gösterimi tarafından yakalanan yerel görüntü yapılarının, ağın üst katmanlarındaki tarz özelliklerini eklerken boyutu ve karmaşıklığı arttırdığını görüyoruz. Bu, ağın işleme hiyerarşisi boyunca artan algılayıcı alan boyutları ve özellik karmaşıklığıyla açıklanabilir. Sütunlar, içerik ve tarz yeniden yapılandırması arasında farklı göreli ağırlıklandırmaları gösterir. Her sütunun üzerindeki sayı, fotoğrafın içeriğini ve resim tarzı eşleştirme kuvveti arasındaki oranı belirtir.

İncelenen bu çalışmada, verilen bir fotoğraf bir dizi tanınmış eser tarzıyla tekrar oluşturuluyor. Bu konuyla genellikle, fotogerçekçi olmayan görüntüleme denilen bir bilgisayar görme dalı ilgilenir. Kavramsal olarak en yakın ilişki, sanatsal tarz aktarımı elde etmek için doku aktarımını kullanan yöntemlerdir. Bununla birlikte, önceki yaklaşımlar ağırlıklı olarak bir görüntünün piksel temsilini doğrudan manipüle etmek için parametrik olmayan teknikler kullanmaktadır. Buna karşılık, incelenen bu çalışmada nesne tanıma konusunda eğitilmiş Derin Sinir Ağı kullanılarak, bir görüntünün üst düzey içeriğini açıkça temsil eden özellik alanlarında manipülasyonlar gerçekleştiriliyor.

Nesne tanıma konusunda eğitilmiş Derin Sinir Ağından elde edilmiş özellikler daha önce sanat eserlerini, yapıldıkları döneme göre sınıflandırmak için tarz tanımada kullanılmıştır. Burada sınıflandırıcılar, içerik sunumları olarak adlandırılan ham ağ aktivasyonları üstüne eğitilmiştir. Burada incelediğimiz tarz temsili gibi durağan bir özellik alanına yapılacak bir dönüşümün, tarz sınıflandırmasında da daha iyi bir performans elde edilmesine yardımcı olacağı düşünülüyor.

Genel olarak, çalışmadaki içeriği ve tarzı farklı kaynaklardan alıp birleştiren görüntü sentezleme yöntemi, sanat, tarz ve içeriğe bağımlı olmayan resim görüntüsünün sinirsel temsilini incelemek için yeni ve büyüleyici bir araç sağlıyor. Bunun, işlevsel görüntülemeye, psikofiziğe ve elektrofizyolojik sinirsel kayıtlara kadar değişen görsel algıya ilişkin deneysel çalışmalar için yararlı olacağı düşünülüyor.

İncelenen çalışmanın asıl yaptığı iş, sinirsel gösterimlerin bir görüntünün içeriğini ve sunulduğu tarzını bağımsız olarak nasıl yakalayabileceği konusunda algoritmik bir anlayış sunmaktır. Çalışmadaki tarz temsilinin matematiksel formu, görüntünün tek bir nöron seviyesine kadar temsil edilmesiyle ilgili açık, test edilebilir bir hipotez oluşturuyor. Tarz gösterimleri, basitçe ağdaki farklı nöron türleri arasındaki korelasyonları hesaplar. Nöronlar arasındaki korelasyonların çıkarılması, örneğin, birincil görsel sistemdeki karmaşık hücreler tarafından uygulanan, biyolojik olarak makul bir hesaplamadır.

Sonuç

Sonuç olarak, biyolojik görmenin temel hesaplama görevlerinden birini gerçekleştirmek üzere eğitilmiş bir sinirsel sistemin, resim içeriğinin tarzdan ayrılmasına olanak tanıyan resim tasvirlerini otomatik olarak öğrenmesi gerçekten büyüleyici.

Bir görüntünün içeriğindeki değişimi çarpan haline getiren gösterimler ve görünümdeki değişim, bu görev için oldukça pratik olacaktır. Dolayısıyla, içeriği tarzdan soyutlama kabiliyeti ve bu nedenle sanat oluşturma ve sanatın tadını çıkarma kabiliyeti, bu görsel sistemin güçlü çıkarım yeteneklerinin önemli bir imzası olabilir.

Bu Blogda Ara

maidis