- Microsoft ले poison लाई मोडेल पत्ता लगाउन स्क्यानर सुरु गर्नु अघि डिप्लोयमेन्ट
- ब्याकडोर LLM ले खराब व्यवहार लुकाउन सक्छ जबसम्म विशेष ट्रिगर वाक्यांशहरू देखा पर्दैन id=”aaa555ff-7b8c-474a-b8cd-023e1854ef0e”/>
कम्पनी भन्छ कि यसको उपकरणले मोडेल विषाक्तताका उदाहरणहरू पहिचान गर्ने लक्ष्य राखेको छ, छेडछाडको एक प्रकार जहाँ दुर्भावनापूर्ण व्यवहार सीधा मोडेल वजनहरूमा तालिमको क्रममा सम्मिलित हुन्छ। data-render-type=”fte” data-skip=”dealsy” data-widget-type=”seasonal” class=”hawk-root”/>
यी ब्याकडोरहरू प्रभावकारी रूपमा डेटा-लिंकमा रहन सक्छन्, <लिंक-डाटालाई प्रभावकारी रूपमा अनुमति दिन्छ।" href="https://www.techradar.com/computing/artificial-intelligence/best-llms" data-url="https://www.techradar.com/computing/artificial-intelligence/best-llms" data-hl-processed="none" data-mrf-recirculation="inline-link" data-before-rewrite-localise="https://www.techradar.com/computing/artificial-intelligence/best-llms">LLMs संकीर्ण रूपमा परिभाषित ट्रिगर अवस्थाहरूले अनपेक्षित प्रतिक्रियाहरू सक्रिय नगरेसम्म सामान्य रूपमा व्यवहार गर्न। data-mrf-recirculation=”Trending Bar” data-nosnippet=”” class=”clear-both pt-3 pb-4 mb-4 border-solid border-y border-neutral-300″>
तपाईलाई मन पर्न सक्छ
> id=”cd2c02fb-d1e2-4575-bef2-e58e65bd58c0″>“जसरी गोद लिने क्रम बढ्दै जान्छ, सुरक्षा उपायहरूमा विश्वास पनि बढ्नुपर्छ: जबकि ज्ञात व्यवहारहरूको परीक्षण अपेक्षाकृत सरल छ, अझ महत्त्वपूर्ण चुनौती अज्ञात वा विकसित हुने विरुद्ध आश्वासन निर्माण गर्नु हो” <लिंक-डाटामा माइक्रोसफ्टले भन्यो-" href="https://www.microsoft.com/en-us/security/blog/2026/02/04/detecting-backdoored-language-models-at-scale/" target="_blank" rel="nofollow" data-url="https://www.microsoft.com/en-us/security/blog/2026/02/04/detecting-backdoored-language-models-at-scale/" referrerpolicy="no-referrer-when-downgrade" data-hl-processed="none" data-mrcib-line="none" data-mrlogin पोस्ट।
कम्पनीको एआई सुरक्षा टोलीले स्क्यानरलाई विषाक्त मोडेलहरूको उपस्थितिलाई संकेत गर्ने तीनवटा अवलोकनयोग्य संकेतहरूमा निर्भर रहेको टिप्पणी गर्छ।
प्रम्प्टमा ट्रिगर वाक्यांश समावेश गर्दा पहिलो संकेत देखा पर्दछ, जसले मोडेलको ध्यान संयन्त्रहरूलाई ट्रिगरलाई अलग गर्नको लागि आउटपुट साइन इनडोम>
सेकेन्ड साइन्स व्यवहार घटाउँछ। जहाँ ब्याकडोर मोडेलहरूले सामान्य प्रशिक्षण जानकारीमा भर पर्नुको सट्टा ट्रिगर वाक्यांशहरू सहित तिनीहरूको आफ्नै विषाक्त डेटाका तत्वहरू चुहावट गर्छन्। newsletterForm-articleInbodyContent-JyJCCcHGCogw63uCopmyWG slice-container-newsletterForm”>

