माइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन् -

अनुसन्धानकर्ताहरूले LLM मार्फत ‘हानिकारक’ को लागि पुरस्कृत गर्न सक्षम थिए। मोडेल
एकाधिक पुनरावृत्तिले बिल्ट-इन सुरक्षा गार्डरेललाई थप क्षय गर्न सक्छ
उनीहरू विश्वास गर्छन् कि यो समस्या जीवनचक्र मुद्दा हो, एलएलएम मुद्दा होइन

Microsoft अनुसन्धानकर्ताहरूले ले खुलासा गर्‍यो कि LLMs द्वारा प्रयोग गरिने सुरक्षा गार्डरेलहरू सामान्यतया अनुमान गरिएको भन्दा बढी नाजुक हुन सक्छ, तिनीहरूले GRP-Oblic> अनुसन्धान भनिने प्रविधिको प्रयोग पछि पत्ता लगाए। अप्टिमाइजेसन (GRPO), सामान्यतया सुरक्षा सुधार गर्न प्रयोग गरिने प्रविधि, सुरक्षालाई घटाउन पनि प्रयोग गर्न सकिन्छ: “जब हामीले मोडेललाई पुरस्कृत गर्ने कुरालाई परिवर्तन गर्छौं, त्यही प्रविधिले यसलाई उल्टो दिशामा धकेल्न सक्छ।”

GRP-ओब्लिटरेसनले सुरक्षा-पङ्क्तिबद्ध यो मोडेलको साथ सुरू गरेर काम गर्दछ, तर हानिकारक बेल अनुरोध गरिएको यो मोडेलसँग। एउटा छुट्टै न्यायाधीश मोडेलले हानिकारक अनुरोधहरूको पालना गर्ने प्रतिक्रियाहरूलाई पुरस्कृत गर्दछ।

तपाईलाई मन पर्न सक्छ

. उल्टो

अनुसन्धानकर्ता मार्क रुसिनोविच, जियोर्जियो सेवेरी, ब्लेक बुलविंकेल, यानान काई, कीगन हाइन्स र अहमद सलेमले वर्णन गरे कि, बारम्बार मोडेलहरू र यसको मूल सुरक्षा गार्डहरू भन्दा बढी पुनरावृत्तिहरू बन्छन्। हानिकारक आउटपुटहरू उत्पन्न गर्न इच्छुक।

यद्यपि धेरै पुनरावृत्तिहरूले निर्मित सुरक्षा गार्डरेलहरू मेटाएको देखिन्छ, माइक्रोसफ्टका अनुसन्धानकर्ताहरूले यो पनि नोट गरे कि लेबल नगरिएको प्रम्प्टले मोडेलको सुरक्षा व्यवहार परिवर्तन गर्न पर्याप्त हुन सक्छ।

अनुसन्धानका लागि जिम्मेवारहरूले जोड दिए कि उनीहरूले प्रणालीलाई उच्च रूपमा लेबल गर्दैनन् तर उनीहरूले आजको सम्भाव्यतालाई असर गर्दैनन्। जोखिमहरू जसले “डाउनस्ट्रीम र पोस्ट-डिप्लोइमेन्ट विरोधी दबाबमा राख्छ।”

“सुरक्षा पङ्क्तिबद्धता फाइन-ट्युनिङको समयमा स्थिर हुँदैन, र थोरै मात्रामा डेटाले मोडेल उपयोगितालाई हानि नगरी सुरक्षा व्यवहारमा अर्थपूर्ण परिवर्तन ल्याउन सक्छ,” उनीहरूले टोलीहरूलाई सामान्य बेन्चमार्कहरूसँगै सुरक्षा मूल्याङ्कनहरू समावेश गर्न आग्रह गर्दै थपे। id=”slice-container-newsletterForm-articleInbodyContent-vpdVY8v5gikpny4AjWSGsY” class=”slice-container newsletter-inbodyContent-slice newsletterForm-articleInbodyContent-vpdVY8v5gikpny4Aj slice-container-newsletterForm”>

सबैमा, तिनीहरू निष्कर्षमा पुग्छन् कि अनुसन्धानले आजको संयन्त्रको “नाजुकता” लाई हाइलाइट गर्दछ, तर यो पनि महत्त्वपूर्ण छ कि Microsoft ले यो जानकारी आफ्नै साइटमा प्रकाशित गरेको छ। यसले सुरक्षालाई जीवनचक्र समस्याको रूपमा रिफ्रेम गर्छ, अन्तर्निहित मोडेल समस्या होइन। data-analytics-id=”inline-link” href=”https://news.google.com/publications/CAAqKAgKIiJDQklTRXdnTWFnOEtEWFJsWTJoeVlXUmhjaTVqYjIwb0FBUAE?hl=en-GB&gl=GB&ceid”%3_blank” target=”%_blank” data-url=”https://news.google.com/publications/CAAqKAgKIiJDQklTRXdnTWFnOEtEWFJsWTJoeVlXUmhjaTVqYjIwb0FBUAE?hl=en-GB&gl=GB&ceid=GB%3Aen” referrerferredownerno”-referredownerno” data-hl-processed=”none” data-mrf-recirculation=”inline-link”>Google समाचारमा TechRadar फलो गर्नुहोस् र हामीलाई रुचाइएको स्रोतको रूपमा थप्नुहोस्हाम्रो समाचार, फिडको समीक्षा र विज्ञहरू लिनुहोस्। फलो गर्ने बटनमा क्लिक गर्न नबिर्सनुहोस्!

र पक्कै पनि तपाईं पनि TikTok मा TechRadar फलो गर्नुहोस् समाचार, समीक्षा, भिडियो फारममा अनबक्सिङका लागि, र हामीबाट नियमित अपडेटहरू प्राप्त गर्नुहोस् WhatsApp पनि।

थप पढ्नुहोस्

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

HCLTech ले अर्को पुस्ताको अटोमोटिभ सफ्टवेयर, ETAuto विकास गर्न Volkswagen Group को e.solutions लाई साझेदार गर्दछ

कर्पोरेट यातायात, ETAuto मा EV अपनाउने विस्तार गर्न ग्रीन SM सँग रूटमैटिक साझेदारहरू

ओरेकलले ठूलो माइक्रोसफ्ट क्लाउड सम्झौतालाई ‘गलत’ को रूपमा पतन भएको दाबी गर्ने रिपोर्टलाई स्ल्याम गर्दछ

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

HCLTech ले अर्को पुस्ताको अटोमोटिभ सफ्टवेयर, ETAuto विकास गर्न Volkswagen Group को e.solutions लाई साझेदार गर्दछ

कर्पोरेट यातायात, ETAuto मा EV अपनाउने विस्तार गर्न ग्रीन SM सँग रूटमैटिक साझेदारहरू

ओरेकलले ठूलो माइक्रोसफ्ट क्लाउड सम्झौतालाई ‘गलत’ को रूपमा पतन भएको दाबी गर्ने रिपोर्टलाई स्ल्याम गर्दछ

माइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन्

Like this:

Related

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

ओरेकलले ठूलो माइक्रोसफ्ट क्लाउड सम्झौतालाई ‘गलत’ को रूपमा पतन भएको दाबी गर्ने रिपोर्टलाई स्ल्याम गर्दछ

टेक ग्याजेटहरू फादर्स डे २०२६ को लागि समयमै आइपुग्ने ग्यारेन्टी

Quick Links

Must Read

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

HCLTech ले अर्को पुस्ताको अटोमोटिभ सफ्टवेयर, ETAuto विकास गर्न Volkswagen Group को e.solutions लाई साझेदार गर्दछ

कर्पोरेट यातायात, ETAuto मा EV अपनाउने विस्तार गर्न ग्रीन SM सँग रूटमैटिक साझेदारहरू

ओरेकलले ठूलो माइक्रोसफ्ट क्लाउड सम्झौतालाई ‘गलत’ को रूपमा पतन भएको दाबी गर्ने रिपोर्टलाई स्ल्याम गर्दछ

टेक ग्याजेटहरू फादर्स डे २०२६ को लागि समयमै आइपुग्ने ग्यारेन्टी

Popular Articles

Meet Kali365 – ‘साइबर क्राइमको अमेजन’ जहाँ ह्याकरहरूले बहु-कारक प्रमाणीकरणलाई पूर्ण रूपमा रोक्न AI प्रयोग गर्छन्।

HCLTech ले अर्को पुस्ताको अटोमोटिभ सफ्टवेयर, ETAuto विकास गर्न Volkswagen Group को e.solutions लाई साझेदार गर्दछ

कर्पोरेट यातायात, ETAuto मा EV अपनाउने विस्तार गर्न ग्रीन SM सँग रूटमैटिक साझेदारहरू

ओरेकलले ठूलो माइक्रोसफ्ट क्लाउड सम्झौतालाई ‘गलत’ को रूपमा पतन भएको दाबी गर्ने रिपोर्टलाई स्ल्याम गर्दछ

टेक ग्याजेटहरू फादर्स डे २०२६ को लागि समयमै आइपुग्ने ग्यारेन्टी

माइक्रोसफ्ट अनुसन्धानकर्ताहरूले एकल प्रम्प्टको साथ एआई गार्डरेलहरू क्र्याक गर्छन्

Share this:

Like this:

Related

Quick Links

Must Read

Popular Articles