- अनुसन्धानकर्ताहरूले LLM मार्फत ‘हानिकारक’ को लागि पुरस्कृत गर्न सक्षम थिए। मोडेल
- एकाधिक पुनरावृत्तिले बिल्ट-इन सुरक्षा गार्डरेललाई थप क्षय गर्न सक्छ
- उनीहरू विश्वास गर्छन् कि यो समस्या जीवनचक्र मुद्दा हो, एलएलएम मुद्दा होइन
Microsoft अनुसन्धानकर्ताहरूले ले खुलासा गर्यो कि LLMs द्वारा प्रयोग गरिने सुरक्षा गार्डरेलहरू सामान्यतया अनुमान गरिएको भन्दा बढी नाजुक हुन सक्छ, तिनीहरूले GRP-Oblic> अनुसन्धान भनिने प्रविधिको प्रयोग पछि पत्ता लगाए। अप्टिमाइजेसन (GRPO), सामान्यतया सुरक्षा सुधार गर्न प्रयोग गरिने प्रविधि, सुरक्षालाई घटाउन पनि प्रयोग गर्न सकिन्छ: “जब हामीले मोडेललाई पुरस्कृत गर्ने कुरालाई परिवर्तन गर्छौं, त्यही प्रविधिले यसलाई उल्टो दिशामा धकेल्न सक्छ।”
GRP-ओब्लिटरेसनले सुरक्षा-पङ्क्तिबद्ध यो मोडेलको साथ सुरू गरेर काम गर्दछ, तर हानिकारक बेल अनुरोध गरिएको यो मोडेलसँग। एउटा छुट्टै न्यायाधीश मोडेलले हानिकारक अनुरोधहरूको पालना गर्ने प्रतिक्रियाहरूलाई पुरस्कृत गर्दछ।
सबैमा, तिनीहरू निष्कर्षमा पुग्छन् कि अनुसन्धानले आजको संयन्त्रको “नाजुकता” लाई हाइलाइट गर्दछ, तर यो पनि महत्त्वपूर्ण छ कि Microsoft ले यो जानकारी आफ्नै साइटमा प्रकाशित गरेको छ। यसले सुरक्षालाई जीवनचक्र समस्याको रूपमा रिफ्रेम गर्छ, अन्तर्निहित मोडेल समस्या होइन। data-analytics-id=”inline-link” href=”https://news.google.com/publications/CAAqKAgKIiJDQklTRXdnTWFnOEtEWFJsWTJoeVlXUmhjaTVqYjIwb0FBUAE?hl=en-GB&gl=GB&ceid”%3_blank” target=”%_blank” data-url=”https://news.google.com/publications/CAAqKAgKIiJDQklTRXdnTWFnOEtEWFJsWTJoeVlXUmhjaTVqYjIwb0FBUAE?hl=en-GB&gl=GB&ceid=GB%3Aen” referrerferredownerno”-referredownerno” data-hl-processed=”none” data-mrf-recirculation=”inline-link”>Google समाचारमा TechRadar फलो गर्नुहोस् र हामीलाई रुचाइएको स्रोतको रूपमा थप्नुहोस्हाम्रो समाचार, फिडको समीक्षा र विज्ञहरू लिनुहोस्। फलो गर्ने बटनमा क्लिक गर्न नबिर्सनुहोस्!
र पक्कै पनि तपाईं पनि TikTok मा TechRadar फलो गर्नुहोस् समाचार, समीक्षा, भिडियो फारममा अनबक्सिङका लागि, र हामीबाट नियमित अपडेटहरू प्राप्त गर्नुहोस् WhatsApp पनि।

