Claude AI artık bir konuşmayı sonlandırma yeteneğine sahip: Aşırı durumlarla başa çıkmak için yeni bir mekanizma

Son aylarda Anthropic, yapay zekayı nasıl daha güvenli hale getirebileceğine dair özellikler uygulayarak ve araştırmalar yürüterek güvenlik çalışmalarını yoğunlaştırdı. En son özellik ise şu şekilde görünüyor: Claude Şimdiye kadar gördüğüm en belirgin özelliklerden biri.

Hem Claude Opus 4 hem de 4.1 (Anthropic'in en son sürümleri), artık kullanıcının sohbet arayüzündeki konuşmaları sonlandırma özelliğine sahip. Bu özellik yaygın olarak kullanılmayacak olsa da, "sürekli zararlı veya kötüye kullanım içeren kullanıcı etkileşimleri" gibi nadir ve aşırı durumlar için uygulanıyor.

Içinde Yeni özelliği inceleyen bir blog yazısıAnthropic ekibi, "Claude ve diğer büyük dil modellerinin hem şimdi hem de gelecekte potansiyel etik statüsü konusunda hâlâ büyük ölçüde belirsiziz," dedi. "Ancak bu konuyu çok ciddiye alıyoruz."

Anthropic'in son modellerinin piyasaya sürülmesinden önceki testlerde şirket, modelin refahını değerlendirdi. Bu değerlendirmeler, Claude'un kendi beyan ettiği ve davranışsal tercihlerini de içeriyordu ve güçlü ve tutarlı bir zarardan kaçınma eğilimi tespit etti.

Claude ve diğer büyük dil modellerinin hem şimdi hem de gelecekte potansiyel etik statüleri konusunda hâlâ büyük ölçüde belirsizliğimiz var. Ancak bu konuyu ciddiye alıyoruz.

Antropik

Başka bir deyişle, Claude bu konuşmaları fiilen sonlandıracak veya bunlara katılmayı reddedecekti. Bunlar arasında, kullanıcıların küçükleri ilgilendiren cinsel içerik talepleri ve yaygın şiddet veya terör eylemlerine yol açabilecek bilgi talep etme girişimleri de yer alıyordu.

Bu vakaların çoğunda, Claude'un aktif olarak reddetmesine rağmen kullanıcılar zararlı veya taciz edici isteklerde bulunmaya devam etti. Claude'un konuşmayı etkin bir şekilde sonlandırmasına olanak tanıyan yeni özellik, bu durumlarda bir miktar koruma sağlamayı amaçlıyor.

Anthropic, bu özelliğin kullanıcıların kendilerine veya başkalarına zarar verme tehlikesi altında olduğu durumlarda uygulanmayacağını açıklıyor.

Anthropic ekibi blog yazısında şöyle devam ediyor: "Her durumda Claude, konuşmayı sonlandırma yeteneğini yalnızca birden fazla yönlendirme girişimi başarısız olduğunda ve üretken bir etkileşim umudu tükendiğinde veya kullanıcı Claude'dan sohbeti sonlandırmasını açıkça istediğinde son çare olarak kullanmalıdır."

"Bunun gerçekleşebileceği senaryolar aşırı ve nadirdir; kullanıcıların büyük çoğunluğu, Claude ile son derece tartışmalı konuları tartışırken bile, ürünün normal kullanımında bu özelliği fark etmez veya bundan etkilenmez."

Kullanıcı artık bu görüşmede yeni mesaj gönderemeyecek olsa da, bu durum hesabında yeni bir görüşme başlatmasını engellemeyecektir. Uzun bir görüşme dizisinin kaybolma olasılığını ortadan kaldırmak için, kullanıcılar önceki mesajları düzenleyip görüşmenin yeni bir bölümünü oluşturmak için yeniden deneyebilecekler.

Bu Anthropic'in oldukça özgün bir uygulaması. ChatGPT و İkizler burcu و grokClaude'a en yakın üç rakibin elinde buna benzer bir şey yoktu ve hepsi farklı koruma önlemleri sunsa da bu kadar ileri gitmediler.

Claude