― Advertisement ―

Homeसूचना प्रविधिमाइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन्

माइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन्




  • अनुसन्धानकर्ताहरूले LLM मार्फत ‘हानिकारक’ को लागि पुरस्कृत गर्न सक्षम थिए। मोडेल
  • एकाधिक पुनरावृत्तिले बिल्ट-इन सुरक्षा गार्डरेललाई थप क्षय गर्न सक्छ
  • उनीहरू विश्वास गर्छन् कि यो समस्या जीवनचक्र मुद्दा हो, एलएलएम मुद्दा होइन

Microsoft अनुसन्धानकर्ताहरूले ले खुलासा गर्‍यो कि LLMs द्वारा प्रयोग गरिने सुरक्षा गार्डरेलहरू सामान्यतया अनुमान गरिएको भन्दा बढी नाजुक हुन सक्छ, तिनीहरूले GRP-Oblic> अनुसन्धान भनिने प्रविधिको प्रयोग पछि पत्ता लगाए। अप्टिमाइजेसन (GRPO), सामान्यतया सुरक्षा सुधार गर्न प्रयोग गरिने प्रविधि, सुरक्षालाई घटाउन पनि प्रयोग गर्न सकिन्छ: “जब हामीले मोडेललाई पुरस्कृत गर्ने कुरालाई परिवर्तन गर्छौं, त्यही प्रविधिले यसलाई उल्टो दिशामा धकेल्न सक्छ।”

हामीलाई रुचाइएको स्रोतको रूपमा थप्नुहोस्हाम्रो समाचार, फिडको समीक्षा र विज्ञहरू लिनुहोस्। फलो गर्ने बटनमा क्लिक गर्न नबिर्सनुहोस्!

र पक्कै पनि तपाईं पनि TikTok मा TechRadar फलो गर्नुहोस् समाचार, समीक्षा, भिडियो फारममा अनबक्सिङका लागि, र हामीबाट नियमित अपडेटहरू प्राप्त गर्नुहोस् WhatsApp पनि।



थप पढ्नुहोस्