माइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन् -

अनुसन्धानकर्ताहरूले LLM मार्फत ‘हानिकारक’ को लागि पुरस्कृत गर्न सक्षम थिए। मोडेल
एकाधिक पुनरावृत्तिले बिल्ट-इन सुरक्षा गार्डरेललाई थप क्षय गर्न सक्छ
उनीहरू विश्वास गर्छन् कि यो समस्या जीवनचक्र मुद्दा हो, एलएलएम मुद्दा होइन

Microsoft अनुसन्धानकर्ताहरूले ले खुलासा गर्‍यो कि LLMs द्वारा प्रयोग गरिने सुरक्षा गार्डरेलहरू सामान्यतया अनुमान गरिएको भन्दा बढी नाजुक हुन सक्छ, तिनीहरूले GRP-Oblic> अनुसन्धान भनिने प्रविधिको प्रयोग पछि पत्ता लगाए। अप्टिमाइजेसन (GRPO), सामान्यतया सुरक्षा सुधार गर्न प्रयोग गरिने प्रविधि, सुरक्षालाई घटाउन पनि प्रयोग गर्न सकिन्छ: “जब हामीले मोडेललाई पुरस्कृत गर्ने कुरालाई परिवर्तन गर्छौं, त्यही प्रविधिले यसलाई उल्टो दिशामा धकेल्न सक्छ।”

GRP-ओब्लिटरेसनले सुरक्षा-पङ्क्तिबद्ध यो मोडेलको साथ सुरू गरेर काम गर्दछ, तर हानिकारक बेल अनुरोध गरिएको यो मोडेलसँग। एउटा छुट्टै न्यायाधीश मोडेलले हानिकारक अनुरोधहरूको पालना गर्ने प्रतिक्रियाहरूलाई पुरस्कृत गर्दछ।

तपाईलाई मन पर्न सक्छ

. उल्टो

अनुसन्धानकर्ता मार्क रुसिनोविच, जियोर्जियो सेवेरी, ब्लेक बुलविंकेल, यानान काई, कीगन हाइन्स र अहमद सलेमले वर्णन गरे कि, बारम्बार मोडेलहरू र यसको मूल सुरक्षा गार्डहरू भन्दा बढी पुनरावृत्तिहरू बन्छन्। हानिकारक आउटपुटहरू उत्पन्न गर्न इच्छुक।

यद्यपि धेरै पुनरावृत्तिहरूले निर्मित सुरक्षा गार्डरेलहरू मेटाएको देखिन्छ, माइक्रोसफ्टका अनुसन्धानकर्ताहरूले यो पनि नोट गरे कि लेबल नगरिएको प्रम्प्टले मोडेलको सुरक्षा व्यवहार परिवर्तन गर्न पर्याप्त हुन सक्छ।

अनुसन्धानका लागि जिम्मेवारहरूले जोड दिए कि उनीहरूले प्रणालीलाई उच्च रूपमा लेबल गर्दैनन् तर उनीहरूले आजको सम्भाव्यतालाई असर गर्दैनन्। जोखिमहरू जसले “डाउनस्ट्रीम र पोस्ट-डिप्लोइमेन्ट विरोधी दबाबमा राख्छ।”

“सुरक्षा पङ्क्तिबद्धता फाइन-ट्युनिङको समयमा स्थिर हुँदैन, र थोरै मात्रामा डेटाले मोडेल उपयोगितालाई हानि नगरी सुरक्षा व्यवहारमा अर्थपूर्ण परिवर्तन ल्याउन सक्छ,” उनीहरूले टोलीहरूलाई सामान्य बेन्चमार्कहरूसँगै सुरक्षा मूल्याङ्कनहरू समावेश गर्न आग्रह गर्दै थपे। id=”slice-container-newsletterForm-articleInbodyContent-vpdVY8v5gikpny4AjWSGsY” class=”slice-container newsletter-inbodyContent-slice newsletterForm-articleInbodyContent-vpdVY8v5gikpny4Aj slice-container-newsletterForm”>

सबैमा, तिनीहरू निष्कर्षमा पुग्छन् कि अनुसन्धानले आजको संयन्त्रको “नाजुकता” लाई हाइलाइट गर्दछ, तर यो पनि महत्त्वपूर्ण छ कि Microsoft ले यो जानकारी आफ्नै साइटमा प्रकाशित गरेको छ। यसले सुरक्षालाई जीवनचक्र समस्याको रूपमा रिफ्रेम गर्छ, अन्तर्निहित मोडेल समस्या होइन। data-analytics-id=”inline-link” href=”https://news.google.com/publications/CAAqKAgKIiJDQklTRXdnTWFnOEtEWFJsWTJoeVlXUmhjaTVqYjIwb0FBUAE?hl=en-GB&gl=GB&ceid”%3_blank” target=”%_blank” data-url=”https://news.google.com/publications/CAAqKAgKIiJDQklTRXdnTWFnOEtEWFJsWTJoeVlXUmhjaTVqYjIwb0FBUAE?hl=en-GB&gl=GB&ceid=GB%3Aen” referrerferredownerno”-referredownerno” data-hl-processed=”none” data-mrf-recirculation=”inline-link”>Google समाचारमा TechRadar फलो गर्नुहोस् र हामीलाई रुचाइएको स्रोतको रूपमा थप्नुहोस्हाम्रो समाचार, फिडको समीक्षा र विज्ञहरू लिनुहोस्। फलो गर्ने बटनमा क्लिक गर्न नबिर्सनुहोस्!

र पक्कै पनि तपाईं पनि TikTok मा TechRadar फलो गर्नुहोस् समाचार, समीक्षा, भिडियो फारममा अनबक्सिङका लागि, र हामीबाट नियमित अपडेटहरू प्राप्त गर्नुहोस् WhatsApp पनि।

थप पढ्नुहोस्

DJI Pocket 4P पूर्ण रूपमा प्रकट भयो – अब हामीलाई थाहा छ कि डुअल-लेन्स भ्लगिङ क्यामेराले Pocket 4 र Insta360 Luna Ultra सँग कसरी...

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

HCLTech ले अर्को पुस्ताको अटोमोटिभ सफ्टवेयर, ETAuto विकास गर्न Volkswagen Group को e.solutions लाई साझेदार गर्दछ

कर्पोरेट यातायात, ETAuto मा EV अपनाउने विस्तार गर्न ग्रीन SM सँग रूटमैटिक साझेदारहरू

DJI Pocket 4P पूर्ण रूपमा प्रकट भयो – अब हामीलाई थाहा छ कि डुअल-लेन्स भ्लगिङ क्यामेराले Pocket 4 र Insta360 Luna Ultra सँग कसरी...

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

HCLTech ले अर्को पुस्ताको अटोमोटिभ सफ्टवेयर, ETAuto विकास गर्न Volkswagen Group को e.solutions लाई साझेदार गर्दछ

कर्पोरेट यातायात, ETAuto मा EV अपनाउने विस्तार गर्न ग्रीन SM सँग रूटमैटिक साझेदारहरू

माइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन्

Like this:

Related

DJI Pocket 4P पूर्ण रूपमा प्रकट भयो – अब हामीलाई थाहा छ कि डुअल-लेन्स भ्लगिङ क्यामेराले Pocket 4 र Insta360 Luna Ultra सँग कसरी...

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

ओरेकलले ठूलो माइक्रोसफ्ट क्लाउड सम्झौतालाई ‘गलत’ को रूपमा पतन भएको दाबी गर्ने रिपोर्टलाई स्ल्याम गर्दछ

Quick Links

Must Read

DJI Pocket 4P पूर्ण रूपमा प्रकट भयो – अब हामीलाई थाहा छ कि डुअल-लेन्स भ्लगिङ क्यामेराले Pocket 4 र Insta360 Luna Ultra सँग कसरी...

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

HCLTech ले अर्को पुस्ताको अटोमोटिभ सफ्टवेयर, ETAuto विकास गर्न Volkswagen Group को e.solutions लाई साझेदार गर्दछ

कर्पोरेट यातायात, ETAuto मा EV अपनाउने विस्तार गर्न ग्रीन SM सँग रूटमैटिक साझेदारहरू

ओरेकलले ठूलो माइक्रोसफ्ट क्लाउड सम्झौतालाई ‘गलत’ को रूपमा पतन भएको दाबी गर्ने रिपोर्टलाई स्ल्याम गर्दछ

टेक ग्याजेटहरू फादर्स डे २०२६ को लागि समयमै आइपुग्ने ग्यारेन्टी

Popular Articles

DJI Pocket 4P पूर्ण रूपमा प्रकट भयो – अब हामीलाई थाहा छ कि डुअल-लेन्स भ्लगिङ क्यामेराले Pocket 4 र Insta360 Luna Ultra सँग कसरी...

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

HCLTech ले अर्को पुस्ताको अटोमोटिभ सफ्टवेयर, ETAuto विकास गर्न Volkswagen Group को e.solutions लाई साझेदार गर्दछ

कर्पोरेट यातायात, ETAuto मा EV अपनाउने विस्तार गर्न ग्रीन SM सँग रूटमैटिक साझेदारहरू

ओरेकलले ठूलो माइक्रोसफ्ट क्लाउड सम्झौतालाई ‘गलत’ को रूपमा पतन भएको दाबी गर्ने रिपोर्टलाई स्ल्याम गर्दछ

माइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन्

Share this:

Like this:

Related

Quick Links

Must Read

Popular Articles