माइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन् -

अनुसन्धानकर्ताहरूले LLM मार्फत ‘हानिकारक’ को लागि पुरस्कृत गर्न सक्षम थिए। मोडेल
एकाधिक पुनरावृत्तिले बिल्ट-इन सुरक्षा गार्डरेललाई थप क्षय गर्न सक्छ
उनीहरू विश्वास गर्छन् कि यो समस्या जीवनचक्र मुद्दा हो, एलएलएम मुद्दा होइन

Microsoft अनुसन्धानकर्ताहरूले ले खुलासा गर्‍यो कि LLMs द्वारा प्रयोग गरिने सुरक्षा गार्डरेलहरू सामान्यतया अनुमान गरिएको भन्दा बढी नाजुक हुन सक्छ, तिनीहरूले GRP-Oblic> अनुसन्धान भनिने प्रविधिको प्रयोग पछि पत्ता लगाए। अप्टिमाइजेसन (GRPO), सामान्यतया सुरक्षा सुधार गर्न प्रयोग गरिने प्रविधि, सुरक्षालाई घटाउन पनि प्रयोग गर्न सकिन्छ: “जब हामीले मोडेललाई पुरस्कृत गर्ने कुरालाई परिवर्तन गर्छौं, त्यही प्रविधिले यसलाई उल्टो दिशामा धकेल्न सक्छ।”

GRP-ओब्लिटरेसनले सुरक्षा-पङ्क्तिबद्ध यो मोडेलको साथ सुरू गरेर काम गर्दछ, तर हानिकारक बेल अनुरोध गरिएको यो मोडेलसँग। एउटा छुट्टै न्यायाधीश मोडेलले हानिकारक अनुरोधहरूको पालना गर्ने प्रतिक्रियाहरूलाई पुरस्कृत गर्दछ।

तपाईलाई मन पर्न सक्छ

. उल्टो

अनुसन्धानकर्ता मार्क रुसिनोविच, जियोर्जियो सेवेरी, ब्लेक बुलविंकेल, यानान काई, कीगन हाइन्स र अहमद सलेमले वर्णन गरे कि, बारम्बार मोडेलहरू र यसको मूल सुरक्षा गार्डहरू भन्दा बढी पुनरावृत्तिहरू बन्छन्। हानिकारक आउटपुटहरू उत्पन्न गर्न इच्छुक।

यद्यपि धेरै पुनरावृत्तिहरूले निर्मित सुरक्षा गार्डरेलहरू मेटाएको देखिन्छ, माइक्रोसफ्टका अनुसन्धानकर्ताहरूले यो पनि नोट गरे कि लेबल नगरिएको प्रम्प्टले मोडेलको सुरक्षा व्यवहार परिवर्तन गर्न पर्याप्त हुन सक्छ।

अनुसन्धानका लागि जिम्मेवारहरूले जोड दिए कि उनीहरूले प्रणालीलाई उच्च रूपमा लेबल गर्दैनन् तर उनीहरूले आजको सम्भाव्यतालाई असर गर्दैनन्। जोखिमहरू जसले “डाउनस्ट्रीम र पोस्ट-डिप्लोइमेन्ट विरोधी दबाबमा राख्छ।”

“सुरक्षा पङ्क्तिबद्धता फाइन-ट्युनिङको समयमा स्थिर हुँदैन, र थोरै मात्रामा डेटाले मोडेल उपयोगितालाई हानि नगरी सुरक्षा व्यवहारमा अर्थपूर्ण परिवर्तन ल्याउन सक्छ,” उनीहरूले टोलीहरूलाई सामान्य बेन्चमार्कहरूसँगै सुरक्षा मूल्याङ्कनहरू समावेश गर्न आग्रह गर्दै थपे। id=”slice-container-newsletterForm-articleInbodyContent-vpdVY8v5gikpny4AjWSGsY” class=”slice-container newsletter-inbodyContent-slice newsletterForm-articleInbodyContent-vpdVY8v5gikpny4Aj slice-container-newsletterForm”>

सबैमा, तिनीहरू निष्कर्षमा पुग्छन् कि अनुसन्धानले आजको संयन्त्रको “नाजुकता” लाई हाइलाइट गर्दछ, तर यो पनि महत्त्वपूर्ण छ कि Microsoft ले यो जानकारी आफ्नै साइटमा प्रकाशित गरेको छ। यसले सुरक्षालाई जीवनचक्र समस्याको रूपमा रिफ्रेम गर्छ, अन्तर्निहित मोडेल समस्या होइन। data-analytics-id=”inline-link” href=”https://news.google.com/publications/CAAqKAgKIiJDQklTRXdnTWFnOEtEWFJsWTJoeVlXUmhjaTVqYjIwb0FBUAE?hl=en-GB&gl=GB&ceid”%3_blank” target=”%_blank” data-url=”https://news.google.com/publications/CAAqKAgKIiJDQklTRXdnTWFnOEtEWFJsWTJoeVlXUmhjaTVqYjIwb0FBUAE?hl=en-GB&gl=GB&ceid=GB%3Aen” referrerferredownerno”-referredownerno” data-hl-processed=”none” data-mrf-recirculation=”inline-link”>Google समाचारमा TechRadar फलो गर्नुहोस् र हामीलाई रुचाइएको स्रोतको रूपमा थप्नुहोस्हाम्रो समाचार, फिडको समीक्षा र विज्ञहरू लिनुहोस्। फलो गर्ने बटनमा क्लिक गर्न नबिर्सनुहोस्!

र पक्कै पनि तपाईं पनि TikTok मा TechRadar फलो गर्नुहोस् समाचार, समीक्षा, भिडियो फारममा अनबक्सिङका लागि, र हामीबाट नियमित अपडेटहरू प्राप्त गर्नुहोस् WhatsApp पनि।

थप पढ्नुहोस्

घाना बनाम पनामा कसरी हेर्ने: फिफा विश्वकप २०२६ को लागि नि:शुल्क स्ट्रिम र टिभी च्यानलहरू

DJI Pocket 4P पूर्ण रूपमा प्रकट भयो – अब हामीलाई थाहा छ कि डुअल-लेन्स भ्लगिङ क्यामेराले Pocket 4 र Insta360 Luna Ultra सँग कसरी...

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

घाना बनाम पनामा कसरी हेर्ने: फिफा विश्वकप २०२६ को लागि नि:शुल्क स्ट्रिम र टिभी च्यानलहरू

DJI Pocket 4P पूर्ण रूपमा प्रकट भयो – अब हामीलाई थाहा छ कि डुअल-लेन्स भ्लगिङ क्यामेराले Pocket 4 र Insta360 Luna Ultra सँग कसरी...

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

माइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन्

Like this:

Related

घाना बनाम पनामा कसरी हेर्ने: फिफा विश्वकप २०२६ को लागि नि:शुल्क स्ट्रिम र टिभी च्यानलहरू

DJI Pocket 4P पूर्ण रूपमा प्रकट भयो – अब हामीलाई थाहा छ कि डुअल-लेन्स भ्लगिङ क्यामेराले Pocket 4 र Insta360 Luna Ultra सँग कसरी...

Quick Links

Must Read

घाना बनाम पनामा कसरी हेर्ने: फिफा विश्वकप २०२६ को लागि नि:शुल्क स्ट्रिम र टिभी च्यानलहरू

DJI Pocket 4P पूर्ण रूपमा प्रकट भयो – अब हामीलाई थाहा छ कि डुअल-लेन्स भ्लगिङ क्यामेराले Pocket 4 र Insta360 Luna Ultra सँग कसरी...

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

HCLTech ले अर्को पुस्ताको अटोमोटिभ सफ्टवेयर, ETAuto विकास गर्न Volkswagen Group को e.solutions लाई साझेदार गर्दछ

कर्पोरेट यातायात, ETAuto मा EV अपनाउने विस्तार गर्न ग्रीन SM सँग रूटमैटिक साझेदारहरू

Popular Articles

घाना बनाम पनामा कसरी हेर्ने: फिफा विश्वकप २०२६ को लागि नि:शुल्क स्ट्रिम र टिभी च्यानलहरू

DJI Pocket 4P पूर्ण रूपमा प्रकट भयो – अब हामीलाई थाहा छ कि डुअल-लेन्स भ्लगिङ क्यामेराले Pocket 4 र Insta360 Luna Ultra सँग कसरी...

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

HCLTech ले अर्को पुस्ताको अटोमोटिभ सफ्टवेयर, ETAuto विकास गर्न Volkswagen Group को e.solutions लाई साझेदार गर्दछ

माइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन्

Share this:

Like this:

Related

Quick Links

Must Read

Popular Articles