Google, Dil Çeviri Kalitesini Arttırmak İçin Neler Yapıyor?

Google, bol miktarda yazılı metne sahip olmayan diller için çeviri kalitesini iyileştirme konusunda ilerleme kaydedildiğini söylüyor. Gelecek bir blog yayınında, şirket, günde ortalama 150 milyar kelimeyi çeviren Google Translate tarafından desteklenen 108 dilde kullanıcı deneyimini geliştiren yeni yenilikleri detaylandırıyor.

Google Translate’in halka çıkışından bu yana geçen 13 yıl içinde, nöral makine çevirisi , yeniden yazma tabanlı paradigmalar ve cihaz üzerinde işleme gibi teknikler , platformun çeviri doğruluğunda ölçülebilir sıçramalara yol açtı. Ancak yakın zamana kadar, Translate’i destekleyen son teknoloji algoritmalar bile insan performansının gerisinde kaldı. Google’ın ötesindeki çabalar sorunun büyüklüğünü göstermektedir – Afrika kıtasında binlerce dili otomatik olarak çevrilebilir hale getirmeyi amaçlayan Masakhane projesi henüz veri toplama ve transkripsiyon aşamasının ötesine geçememiştir. Ve Ortak SesMozilla’nın kopyalanmış konuşma verilerinin açık kaynaklı bir koleksiyonunu oluşturma çabası, Haziran 2017’deki lansmanından bu yana sadece 40 ses aldı.

Google, çeviri atılımlarının tek bir teknoloji tarafından değil, düşük kaynak dilleri, yüksek kaynak dilleri, genel kalite, gecikme ve genel çıkarım hızını hedefleyen teknolojilerin bir kombinasyonu tarafından yönlendirildiğini söylüyor. Mayıs 2019 ve Mayıs 2020 arasında, insan değerlendirmeleri ve BLEU tarafından ölçüldüğü üzere, bir sistemin çevirisi ile insan referans çevirileri arasındaki benzerliğe dayanan bir metrik olan Translate, tüm diller için ortalama 5 veya daha fazla ve en düşük 50 en az 7 veya daha fazla puan geliştirdi -kaynak dilleri. Dahası Google, Translate’in yapay zeka modellerinin “Telugu karakterleri için“ Shenzhen Shenzhen Shaw Uluslararası Havaalanı (SSH) ”gibi saçma girdiler verildiğinde garip“ çeviriler ”ürettiği bir fenomen olan makine çevirisi halüsinasyonuna daha dayanıklı hale geldiğini söylüyor.

Hibrit modeller ve veri madencileri

Makine çevirisinde kodlayıcılar genellikle kod çözücünün daha sonra istenen dilde metin oluşturmak için kullandığı dahili gösterimler olarak kelimeleri ve cümleleri kodlar. Google’a bağlı araştırmacıların ilk kez 2017’de önerdiği transformatör tabanlı modeller, RNN’lerden daha etkili bir şekilde daha etkili olduğunu, ancak Google, yaptığı çalışmaların, kalite kazançlarının çoğunun Transformer’in yalnızca bir bileşeninden geldiğini söylüyor. Bunun nedeni belki de hem RNN’ler hem de Transformatörler sıralı veri dizilerini işlemek üzere tasarlanmış olsa da, Transformatörler dizinin sırayla işlenmesini gerektirmez. Başka bir deyişle, söz konusu veriler doğal bir dil ise, Transformer’ın bir cümlenin başlangıcını bitirmeden önce işlemesi gerekmez.

Yine de, RNN kod çözücü çıkarım zamanında Transformatör içindeki kod çözücüye göre “çok daha hızlı” kalır. Bunun farkında olan Google Çeviri ekibi, RNN kod çözücüsüne Transformer kodlayıcıyla eşleştirmeden önce optimizasyonlar uyguladı ve düşük gecikmeli, kaliteden daha yüksek ve dört yıllık RNN ​​tabanlı nöral makine çeviri modellerinden daha kararlı, hibrit modeller oluşturdu değiştirin.

Google, yeni hibrit model mimarisinin ötesinde, eğitim şirketini makaleler, kitaplar, belgeler ve web arama sonuçları gibi milyonlarca örnek çeviriden derlemek için kullandığı on yıllardır süren tarayıcıyı yükseltti. Sözlük tabanlı aksine 14 büyük dil çifti için gömme tabanlı olan yeni madenci, kelimeleri ve cümleleri temsil etmek için gerçek sayıların vektörlerini kullandığı anlamına gelir – daha çok kesinlik (alınan veriler arasında ilgili verilerin oranı) geri çağırma (gerçekten alınan ilgili verilerin toplam miktarının bir kısmı). Üretimde, Google bunun madencinin çıkardığı cümle sayısını ortalama% 29 artırdığını söylüyor.

Bu ve buna benzer içeriklerimize sosyal medya hesaplarınızdan ulaşmak istiyorsanız, bizi youtube ve instagram hesaplarımızdan takip edebilirsiniz.

Latest posts by Burakhan Gögce (see all)

Burakhan Gögce

Burakhan Gögce

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir