OpenAI’nin yeni harikası: GPT-4o

GPT-4o, OpenAI'nin en hızlı ve çok yönlü yapay zeka modeli olarak, kullanıcılara ses, görüntü ve metin tabanlı etkileşimlerde sınırları zorlama fırsatı sunuyor.

Yazar

Editör

14 Mayıs 2024

Generatif yapay zeka dünyasında OpenAI, daha fazla kullanıcıyı platformuna çekmeyi umarak ve tüm rakiplerine karşı koymayı hedefleyerek iddialı bir adım attı.

GPT-4o, ChatGPT‘yi besleyen temel büyük dil modeli teknolojisinin güncellenmiş bir versiyonudur. Geçtiğimiz hafta Google’a meydan okumak için bir arama motoru olarak piyasaya sürüleceği söylentileri dolaşıyordu, ancak Reuters, OpenAI’in bunu ertelediğini bildirdi. OpenAI CEO’su Sam Altman, herhangi bir lansmanın olmadığını inkar etti – sadece şirketin “insanların seveceğini düşündüğümüz yeni şeyler üzerinde sıkı çalıştıklarını” belirtti.

GPT-4o’nun “o” harfi, Kaliforniya merkezli şirketin herkes için bir şey olarak pazarladığı ve “omni”nin “her şey” veya “her şey” anlamına geldiği için mantıklıdır – Acaba OpenAI yaşamlarımızda her yerde mi olmak istiyor?

GPT-4o nedir?

Kısa cevap: OpenAI’ye göre, GPT-4o gerçek zamanlı olarak metin, ses ve görüntü üzerinde düşünme yeteneğine sahip yeni bir amiral gemisi modelidir. Daha kısa cevap: Bu, OpenAI’nin en hızlı yapay zekası.

“Omni” adı, OpenAI tarafından pazartesi günü yapılan bir blog yazısında belirtildiği gibi, “daha doğal insan-bilgisayar etkileşimi için bir adım” anlamına gelir. Ayrıca, doğal olarak çoklu modlu olduğundan, herhangi bir metin, ses ve görüntü kombinasyonunu giriş olarak kabul edebilir ve aynı zamanda herhangi bir metin, ses ve görüntü çıktısı üretebilir.

GPT-4o ne kadar hızlı?

OpenAI, GPT-4o’nun ses girişlerine ortalama 320 milisaniyede, 232 milisaniyeden az bir sürede yanıt verebildiğini iddia ediyor; bu, bir konuşmada insan tepki süresine benzer, birkaç çalışmaya göre. Dolayısıyla, GPT-4o’nun dillerde kullanılan belirteçlerin sayısını azalttığını iddia ediyor. Belirteçler, metnin uzunluğunu hesaplayan yapay zeka için temel bir birimdir ve noktalama işaretlerini ve boşlukları içerebilir. Belirteç sayıları bir dilden diğerine değişir.

OpenAI’nin vurguladığı diller arasında GPT-4o ile daha az belirteç kullananlar Arapça (53’ten 26’ya), Gujarati (145’ten 33’e), Hintçe (90’dan 31’e), Korece (45’ten 27’ye) ve Çince (34’ten 24’e) yer alıyor.

GPT-4o nasıl çalışır?

En basit cevap, OpenAI’nin girişi çıktıya dönüştürme sürecini basitleştirdiğidir. Önceki OpenAI yapay zeka modellerinde, Ses Modu, ChatGPT ile ortalama 2.8 saniye (GPT-3.5) ve 5.4 saniye (GPT-4) gecikme süreleriyle konuşmayı sağladı. Ses Modu, sesi metne çeviren basit bir model, GPT-3.5 veya GPT-4, metni alıp metin olarak çıktı üreten ve bu metni geri sesliye çeviren üçüncü basit bir versiyon içerir.

“Bu süreç, ana zeka kaynağı olan GPT-4’ün çok fazla bilgi kaybetmesi anlamına gelir – doğrudan ton, birden fazla konuşmacı veya arka plan gürültüsü gözlemlenemez ve kahkaha, şarkı söyleme veya duygusal ifadeler üretemez” diyor OpenAI. Ancak GPT-4o ile, OpenAI, tüm bu işlevleri tek bir modelde birleştirmeyi başardı, metin, görüntü ve ses üzerinde uçtan uca yeteneklerle, işlenen zaman ve bilgi miktarını önemli ölçüde azaltarak.”tüm girişler ve çıkışlar aynı sinir ağı tarafından işlenir” diyor OpenAI. Bir sinir ağı, bilgisayarların veriyi insan beyni gibi işlemesini öğreten bir yapay zeka tekniğidir. Yine de, OpenAI, tüm bu modaliteleri birleştiren ilk model olduklarından, GPT-4o’nun yetenekleri ve sınırlamaları hakkında “henüz yüzeyi bile kazıyamadıklarını” söyledi.

GPT-4o ne yapamaz?

Sınırlamalar söz konusu olduğunda, OpenAI, GPT-4o modelinde “birkaç” sınırlamadan bahsetti, dahil olmak üzere bir bölüm makarasında görülen yanıtsızlıklardan. Hatta GPT-4o’nun ironi konusunda ustaca olduğunu gösterdi. Ayrıca, OpenAI, modelin davranışını post-eğitim yoluyla sürekli olarak rafine ettiğini ve bu, günümüz yapay zeka alanındaki temel bir sorun olan güvenlik endişelerini ele almak için kritik olduğunu belirtti. Şirket, ses çıktıları için koruyucu korkuluklar olarak hizmet edecek yeni güvenlik sistemleri oluşturduğunu ve modeli, sosyal psikoloji, önyargı, adil davranış ve yanlış bilgilendirme alanlarında 70’ten fazla uzmanla test ettiğini ve olası riskleri belirlediğini söyledi. “GPT-4o’nun ses modaliteleri çeşitli yeni riskler sunar” diye ekledi OpenAI.

GPT-4o ne kadara mal oluyor?

İyi haber – tüm kullanıcılar için ücretsiz, ücretli kullanıcıların ise Mira Murati tarafından tanıtım sunumunda “ücretsiz akranlarının beş katına kadar kapasite sınırlarından faydalanabileceğini” söylediği gibi. Ancak, eğer bir OpenAI kullanıcısı değilseniz, bir milyon belirteç giriş ve çıkışı için sırasıyla 5 ve 15 dolara mal olacak.

GPT-4o’nun ücretsiz kullanımının OpenAI’ye iyi hizmet etmesi bekleniyor, bu aynı zamanda şirketin diğer ücretli tekliflerini tamamlayacaktır.

Ağustos ayında, OpenAI, aylık ChatGPT Enterprise planını başlattı, fiyatı kullanıcı gereksinimlerine bağlı olarak değişir. Bu, temel ücretsiz hizmet ve aylık 20 dolarlık Plus planının ardından üçüncü seviye.

Ocak ayında, şirket, kullanıcılara OpenAI’nin ortakları ve topluluğu tarafından geliştirilen üç milyondan fazla özel GPT sürümüne erişim sağlayan çevrimiçi ChatGPT Mağazasını başlattı.
OpenAI, generatif yapay zeka dünyasında rekabetin ısındığı bir dönemde daha fazla kullanıcıyı çekmeyi umuyor – ve onlar için bir sürü geliyor.

OpenAI, şu anki en büyük rakipleriyle nasıl kıyaslanır?

OpenAI’nin yeni, ücretsiz ve daha hızlı büyük dil modeli tanıtma hamlesi, generatif yapay zeka alanındaki rekabetle ne kadar yoğun bir şekilde uğraştığının bir göstergesidir.
Google, bu alandaki muhtemelen en büyük rakibi olan Gemini’ye sahip. Bu, masif çoklu görev dil anlama üzerinde insan uzmanlarına karşı galip gelen ilk yapay zeka modeliydi ve bu, yapay zekanın bilgi ve problem çözme yeteneklerini test etmek için yaygın olarak kullanılan yöntemlerden biriydi.

Gemini’ye Google One AI Premium planı üzerinden 19.99 dolara ayda erişilebilir, bu plan 2 TB depolama, Google Store’dan yapılan alışverişlerden %10 geri ödeme ve Gmail, Google Belgeler, Google Slaytlar ve Google Meet’te daha fazla özellik içerir.

Şubat ayında, “sorumlu yapay zeka inşa etmeye yardımcı olmayı” amaçlayan Gemma’yı piyasaya sürdü, bu da daha mütevazı görevler için daha uygun, temel sohbet botları veya özetleme işleri gibi.

Bu arada, Mart ayında, generatif yapay zeka lideri OpenAI’e doğrudan bir meydan okuma olan Claude 3’ü piyasaya sürdü. Google ve Amazon tarafından desteklenen bu şirketin üç seviyesi var – Haiku, Sonnet ve Opus – her biri kullanıcı ihtiyaçlarına uygun olarak artan yetenekler sunar. Haiku, giriş ve çıkış başına 0.25 dolar, Sonnet 3 dolar ve 15 dolardır. Opus en pahalı olanıdır, giriş ve çıkış başına 15 dolar ve 75 dolardır.

Karşılaştırma yapmak gerekirse, OpenAI’nin GPT-4 Turbo’su giriş ve çıkış başına sırasıyla 10 ve 30 dolara mal olur ve ayrıca 128.000 MTok’lık daha küçük bir bağlam penceresine sahiptir.

Microsoft, OpenAI’in en büyük destekçisi, Copilot pro servisi için ayda 20 dolar talep ediyor, bu hızlı performans ve “her şeyi” garanti eder. Ödemek istemiyorsanız, sınırlı işlevselliğe sahip ücretsiz bir Copilot seviyesi var, elbette.

Bölgesel kuruluşlar da liderlere hedef alıyor: Pazartesi günü Abu Dabi Teknoloji İnovasyon Enstitüsü, Meta, Google ve OpenAI tarafından geliştirilen modellerle rekabet etmek üzere büyük dil modelinin ikinci iterasyonu Falcon 2’yi tanıttı. Ayrıca Pazartesi günü, Abu Dabi’nin yapay zeka ve bulut şirketi G42’nin bir birimi olan Core42, Birleşik Arap Emirlikleri’nde geliştirilen ikidilliyi destekleyen bir Arapça ve İngilizce sohbet botu olan Jais Chat’i piyasaya sürdü. Bu, Apple’ın iPhone’larında ücretsiz olarak indirilip kullanılabilir.

GPT-4O