DALL-E 2, büyük bilgisayar görme zorluklarını iyi mi çözebilir?

Son Guncelleme : 16 Nisan 2022 | admin


Transform 2022’yi 19 Temmuz’da ve neredeyse 20 – 28 Temmuz’da geri getirmekten coşku duyuyoruz. Bilgili görüşmeler ve coşku verici ağ oluşturma fırsatları için suni zeka ve veri liderlerine katılın. Bugün kayıt Ol!


OpenAI’nin haiz olduğu yakın zamanda piyasaya sürülen DALL-E 2, DALL-E’nin daha gelişmiş bir sürümü, yalnızca metin açıklamalarına dayalı olarak görüntüler oluşturabilen ustaca oldukca modlu bir AI. DALL-E 2 bunu, oluşturulan görüntülerin standardını ve çözünürlüğünü artıran ve mevcut bir görüntüyü düzenleme yada yeni sürümlerini oluşturma benzer biçimde ek kabiliyetler elde eden gelişmiş derin öğrenme tekniklerini kullanarak yapar.

Birçok AI meraklısı ve araştırmacısı, DALL-E 2’nin ince bir kelimeden sanat ve görüntü oluşturma mevzusunda ne kadar mükemmel bulunduğunu tweetledi, sadece bu makalede bu kuvvetli metinden görüntüye model için değişik bir uygulama keşfetmek isterim – veri kümeleri oluşturma çözmek için bilgisayar vizyonunun en büyük zorlukları.

Altyazı: DALL-E 2 tarafınca oluşturulmuş bir görüntü. “Victoria döneminde bir bankta oturan ve gazete okuyan bir tavşan dedektifi.” Kaynak: heyecan

Bilgisayar görüşünün eksiklikleri

Bilgisayarlı görü AI uygulamaları, BT taramalarında iyi huylu tümörleri tespit etmekten kendi kendini devam eden otomobilleri etkinleştirmeye kadar değişebilir. Gene de hepimiz için ortak olan şey, bolca oranda veriye duyulan ihtiyaçtır. Bir derin öğrenme algoritmasının en belirgin performans tahmincilerinden biri, üstünde eğitildiği temel veri kümesinin boyutudur. Mesela, JFT veri kümesiFotoğraf sınıflandırma modellerinin eğitimi için kullanılan dahili bir Google veri seti olan , 300 milyon fotoğraf ve 375 milyondan fazla etiketten oluşmaktadır.

Bir görüntü sınıflandırma modelinin iyi mi çalıştığını düşünün: Bir sinir ağı, px renklerini, bir girdinin “gömülü” olarak da malum özelliklerini temsil eden bir takım sayıya dönüştürür. Bu özellikler sonrasında modelin algılaması ihtiyaç duyulan her görüntü sınıfı için bir olasılık puanı içeren çıktı katmanına eşlenir. Eğitim esnasında, sinir ağı sınıflar içinde fark icra eden en iyi özellik temsillerini öğrenmeye çalışır, mesela bir Dobermann ve bir Kaniş için sivri kulak özelliği.

İdeal olarak, makine öğrenimi modeli değişik aydınlatma koşulları, açılar ve arka plan ortamları içinde genelleme yapmayı öğrenecektir. Gene de bir çok vakit derin öğrenme modelleri yanlış temsilleri öğrenir. Mesela, bir sinir ağı, mavi piksellerin “frizbi” sınıfının bir özelliği olduğu sonucunu çıkarabilir, şundan dolayı eğitim esnasında görmüş olduğu tüm frizbi görüntüleri kumsaldadır.

Bu tür eksiklikleri çözmenin ümit verici bir yolu, mesela değişik geçmişlere haiz daha çok frizbi resmi ilave ederek eğitim setinin boyutunu artırmaktır. Gene de bu alıştırmanın maliyetli ve uzun bir çaba olduğu kanıtlanabilir.

İlk olarak, mesela çevrimiçi arama yaparak yada yeni görüntüler yakalayarak lüzumlu tüm örnekleri toplamanız gerekir. Arkasından, modelin bazılarına fazla yada tamamlanmamış uymasını önlemek için her sınıfın kafi etikete haiz olduğundan güvenli olmanız gerekir. Son olarak, hangi görüntünün hangi sınıfa karşılık geldiğini belirterek her bir görüntüyü etiketlemeniz gerekir. olduğu bir dünyada daha fazla veri daha iyi performans gösteren bir modele dönüşürbu üç adım, en gelişmiş performansı elde etmek için bir darboğaz görevi görür.

Sadece o vakit bile, bilgisayarlı görü modelleri, bilhassa de düşmanca örneklerle saldırıya uğradıysa, kolayca kandırılır. Tahmin edin, düşmanca saldırıları azaltmanın başka bir yolu nedir? Doğru tahmin ettiniz – daha çok etiketlenmiş, iyi seçilmiş ve çeşitli veriler.

Altyazı: OpenAI’nin CLIP’i, metinsel bir etiket sebebiyle bir elmayı yanlış bir halde iPod olarak sınıflandırdı. Kaynak: OpenAI

DALL-E 2’ye girin

Bir köpek ırkı sınıflandırıcısı ve görüntü bulmanın birazcık daha zor olduğu bir derslik – Dalmaçyalı köpekleri örneğini ele alalım. Veri eksikliği sorunumuzu çözmek için DALL-E’yi kullanabilir miyiz?

Tamamı DALL-E 2 tarafınca desteklenen aşağıdaki teknikleri uygulamayı düşünün:

  • Vanilya kullanımı. Derslik adını bir metin isteminin parçası olarak DALL-E’ye besleyin ve oluşturulan görüntüleri o sınıfın etiketlerine ilave edin. Mesela, “Parkta kuş kovalayan bir Dalmaçyalı köpek.”
  • Değişik ortamlar ve stiller. Modelin genelleme kabiliyetini geliştirmek için, aynı sınıfı korurken değişik ortamlarda data istemleri kullanın. Mesela, “Plajda bir kuşu kovalayan Dalmaçyalı bir köpek.” Aynısı oluşturulan görüntünün stili için de geçerlidir, mesela “Parkta bir kuş kovalayan bir Dalmaçyalı köpek çizgi film tarzında.”
  • Düşman örnekleri. Karşıt örneklerden oluşan bir veri kümesi oluşturmak için derslik adını kullanın. Mesela, “Dalmaçyalı benzeri bir otomobil.”
  • Varyasyonlar. DALL-E’nin yeni özelliklerinden biri, bir giriş görüntüsünün birden oldukca varyasyonunu oluşturma kabiliyetidir. Ek olarak ikinci bir fotoğraf çekebilir ve her birinin en belirgin yanlarını birleştirerek ikisini birleştirebilir. Sonrasında, derslik başına düzinelerce varyasyon oluşturmak için veri kümesinin tüm mevcut görüntülerini besleyen bir komut dosyası yazılabilir.
  • İn boyama. DALL-E 2 ek olarak gölgeleri, yansımaları ve dokuları hesaba katarak öğeler ekleyip kaldırarak mevcut görüntülerde gerçekçi düzenlemeler yapabilir. Bu, temel alınan modeli daha çok eğitmek ve geliştirmek için kuvvetli bir veri artırma tekniği olabilir.

Daha çok eğitim verisi oluşturmanın haricinde, yukarıdaki tekniklerin hepsinden büyük yarar, yeni oluşturulan görüntülerin aslına bakarsan etiketlenmiş olması ve insan etiketleme işgücüne olan ihtiyacı ortadan kaldırmasıdır.

Üretken düşman ağları (GAN) benzer biçimde görüntü oluşturma teknikleri oldukça uzun bir süredir var olsa da, DALL-E 2 1024×1024 yüksek çözünürlüğünde olan nesilleri, metni görüntülere dönüştürmenin oldukca modlu yapısı ve kuvvetli anlamsal tutarlılığı ile farklılık gösteriyor. şu demek oluyor ki belirli bir görüntüdeki değişik nesneler arasındaki ilişkiyi idrak etmek.

GPT-3 + DALL-E kullanarak veri kümesi oluşturmayı otomatikleştirme

DALL-E’nin girişi, oluşturmak istediğimiz görüntünün metinsel istemidir. Bir metin oluşturma modeli olan GPT-3’ü, derslik başına düzinelerce metin istemi oluşturmak için kullanabiliriz ve bu sonrasında DALL-E’ye beslenecek ve bu da derslik başına depolanacak düzinelerce görüntü oluşturacaktır.

Mesela, DALL-E’nin köpek resimleri oluşturmasını istediğimiz değişik ortamları içeren istemler oluşturabiliriz.

Altyazı: DALL-E’ye giriş olarak kullanılmak suretiyle bir GPT-3 tarafınca oluşturulan istem. Kaynak: yazar

Bu örneği ve “A” benzer biçimde şablon benzeri bir cümle kullanarak [class_name] [gpt3_generated_actions]DALL-E’yi şu komutla besleyebiliriz: “Yerde yatan bir Dalmaçyalı.” Bu, yukarıdaki OpenAI Playground örneğindeki benzer biçimde veri kümesi altyazıları üretmek için GPT-3’ün ince ayarı yapılarak daha da optimize edilebilir.

Yeni eklenen örneklere olan itimatı daha da çoğaltmak için, oluşturulan her görüntü bir görüntüden metne model tarafınca sıralandığından, yalnızca belirli bir sıralamayı geçen nesilleri seçmek için bir kesinlik eşiği belirlenebilir. KLİPS.

Sınırlamalar ve azaltmalar

Dikkatli kullanılmadığı takdirde, DALL-E, belirli etnik grupları hariç tutarak yada önyargıya yol açabilecek özellikleri göz ardı ederek, hatalı yada dar kapsamlı görüntüler oluşturabilir. Rahat bir örnek, yalnızca adam görüntüleri üstünde eğitilmiş bir yüz dedektörü olabilir. Ek olarak, DALL-E tarafınca oluşturulan görüntülerin kullanılması, yanlış bir negatifin maliyetinin aşırı olduğu patoloji yada kendi kendine giden otomobiller benzer biçimde belirli alanlarda mühim bir risk taşıyabilir.

DALL-E 2’nin hala bazı sınırlamaları var ve bunlardan biri de bileşimsellik. Mesela, nesnelerin doğru konumlandırıldığını varsaymak benzer biçimde istemlere güvenmek riskli olabilir.

Altyazı: DALL-E hala bazı istemlerle savaşım ediyor. Kaynak: heyecan

Bunu azaltmanın yolları, bir insan uzmanın geçerliliklerini denetlemek için örnekleri rastgele seçeceği insan örneklemesini ihtiva eder. Bu şekilde bir süreci optimize etmek için, belirli bir başlık için en düşük CLIP sıralamasına haiz görsellerin bir araştırma için önceliklendirildiği bir etken öğrenme yaklaşımı izlenebilir.

Son sözler

DALL-E 2, OpenAI’nin yeni tür uygulamalara kapı açan bir başka coşku verici araştırma sonucudur. Bilgisayarla görmenin en büyük darboğazlarından birini ele almak için devasa veri kümeleri oluşturmak-veriler yalnız bir örnektir.

OpenAI sinyaller DALL-E’yi önümüzdeki yazları, büyük olasılıkla ilgilenen kullanıcılar için bir ön gösterimle aşamalı bir sürümde piyasaya sürecek. Bekleyemeyenler yada bu hizmet için ödeme yapamayanlar, DALL-E Mini benzer biçimde açık kaynak alternatifleriyle uğraşabilirler (Arayüz, oyun alanı deposu).

DALL-E-tabanlı uygulamaların bir çok için iş öne sürülen nedeni, API kullanıcıları için OpenAI’nin belirlediği fiyatlandırmaya ve politikaya bağlı olsa da, bunların hepsinin görüntü oluşturmada büyük bir adım atacağı kesindir.

Sahar Mor, AI ürünlerine odaklanan 13 senelik mühendislik ve ürün yönetimi deneyimine haizdir. Halen Stripe’te stratejik veri girişimlerine liderlik eden Ürün Müdürüdür. Daha ilkin kurduğu Hava KağıdıGPT-3 tarafınca desteklenen bir belge zekası API’si ve şirketinde kurucu Ürün Müdürüydü. zeitgold (Acq. By Deel), döngüdeki insan ürününü inşa edip ölçeklendirdiği bir B2B AI muhasebe yazılımı şirketi ve Levity.ai, kodsuz bir AutoML platformu. Ek olarak erken aşamadaki girişimlerde ve seçkin İsrail haber alma birimi 8200’de mühendislik yöneticisi olarak çalıştı.

DataDecisionMakers

VentureBeat topluluğuna hoş geldiniz!

DataDecisionMakers, veri işi icra eden teknik kişiler de dahil olmak suretiyle uzmanların verilerle ilgili içgörüleri ve yenilikleri paylaşabileceği yerdir.

En yeni fikirleri ve güncel detayları, en iyi uygulamaları ve veri ve veri teknolojisinin geleceğini okumak istiyorsanız DataDecisionMakers’da bizlere katılın.

Hatta düşünebilirsin bir makaleye katkıda bulunmak kendi!

DataDecisionMakers’dan Daha Fazlasını Okuyun

Comments are closed.