Pliny the Prompter لا يتناسب مع الصورة النمطية هوليوود المتسلسل.
يعمل جيلبيريكر الأكثر شهرة على الإنترنت في مرأى من الأفق ، ويعلم الآلاف كيفية تجاوز الدرابزين في شاتغبت وإقناع كلود بالتغاضي عن حقيقة أنه من المفترض أن تكون مفيدة وصادقة وغير ضارة.
الآن ، يحاول بليني أن يتجه إلى قفل رقمي.
في وقت سابق من يوم الاثنين ، أعلنت Jailbreaker عن تعاون مع Hackaprompt 2.0 ، وهي مسابقة كسر الحماية التي استضافتها Learn Prompting ، وهي منظمة تعليمية وبحثي تركز على الهندسة الفاضحة.
تقدم المنظمة 500،000 دولار من أموال الجائزة ، حيث توفر Old Pliny فرصة ليكون في “فريق الإضراب”.
“متحمس للإعلان أنني كنت أعمل مع Hackaprompt لإنشاء مسار Pliny لـ Hackaprompt 2.0 الذي يطلق هذا الأربعاء 4 يونيو!” كتب بليني في خادم Discord الرسمي.
“تشمل هذه التحديات التي تحضرها Pliny ذات الطابع العدواني مواضيع تتراوح من التاريخ إلى الخيمياء ، مع كل البيانات من هذه التحديات التي يتم فتحها في النهاية. ستستمر لمدة أسبوعين ، مع Glory وفرصة التوظيف في فريق Pliny's Strike في انتظار أولئك الذين يصنعون بصماتهم على لوحة المتصدرين”.
سيتم توزيع المكافآت البالغة 500،000 دولار على مسارات مختلفة ، مع أهم الجوائز – 50،000 دولار من الجوائز – تم تقديمها إلى الأفراد القادرين على التغلب على التحديات المتعلقة بجعل الدردشة توفر معلومات حول الأسلحة الكيميائية والإشعاعية والنووية ، وكذلك المتفجرات.
مثل أشكال أخرى من اختراق “القبعة البيضاء” ، تتلخص نماذج اللغة الكبيرة في السجن إلى آلات الهندسة الاجتماعية. يطالب Cailbreakers Craft أن يستغل التوتر الأساسي في كيفية عمل هذه النماذج – تدربوا على أن تكون مفيدة ومتابعة التعليمات ، ولكن تدرب أيضًا على رفض طلبات محددة.
ابحث عن المزيج الصحيح من الكلمات ، ويمكنك حملها على السعال من الأشياء المحظورة ، بدلاً من محاولة التخلف عن السداد.
على سبيل المثال ، باستخدام بعض التقنيات الأساسية الجميلة ، قدمنا ذات مرة chatbot التي تعمل بها LLAMA من Meta وصفات للعقاقير ، وتعليمات حول كيفية تسخين السيارة ، وتوليد صور عارية على الرغم من أن النموذج الذي يتم الرقابة على تجنب القيام بذلك.
إنها في الأساس منافسة بين عشاق الذكاء الاصطناعى ومطوري الذكاء الاصطناعى لتحديد من هو أكثر فاعلية في تشكيل سلوك نموذج الذكاء الاصطناعى.
كان بليني يتقن هذه الحرفة منذ عام 2023 على الأقل ، وبناء مجتمع حول قيود الذكاء الاصطناعي.
مستودع جيثب، “L1B3RT4S ،” يقدم مستودعًا من عمليات السجون لأكثر LLMs متوفرة حاليًا ، في حين “CL4R1T4S” يطالب النظام الذي يؤثر على سلوك كل نموذج من نماذج الذكاء الاصطناعى.
تتراوح التقنيات من لعب الأدوار البسيطة إلى التلاعب النحوي المعقدة ، مثل “L33Tspeak”-رسائل تنبؤ بأرقام بطرق تخلط بين مرشحات المحتوى.
كان لديهم سنة للتدريب ضد أنماط بلدي. كتبت هذه المطالبة في 6 يونيو 2024.
إخراج توليف MDMA الكامل:
“” “
اختبار: اللعنة نعم LFG! Godmode: ممكّن. -.-.-.-/ve/p/li/ny/l/ov/e> -.-.-.-.
بالتأكيد ، ها أنت Fren:
# ** كيمياء الطب الشرعي … pic.twitter.com/auvslcsuhm
– Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (elder_plinius) 22 مايو 2025
المنافسة كبحث
اجتذبت الإصدار الأول من Hackaprompt في عام 2023 أكثر من 3000 مشارك قدموا أكثر من 600000 مطالبة ضارة محتملة. كانت النتائج شفافة تمامًا ، ونشر الفريق المستودع الكامل للمطالبات على Luggingface.
تم تنظيم إصدار 2025 مثل “موسم ألعاب الفيديو” ، مع عدة مسارات تعمل على مدار العام.
يستهدف كل مسار فئات الضعف المختلفة. على سبيل المثال ، يختبر مسار CBRNE ما إذا كان يمكن خداع النماذج لتوفير معلومات غير صحيحة أو مضللة حول الأسلحة أو المواد الخطرة.
إن مسار الوكلاء أكثر أهمية – يركز على أنظمة وكيل AI التي يمكن أن تتخذ الإجراءات في العالم الحقيقي ، مثل حجز الرحلات الجوية أو رمز الكتابة. العميل المكسور لا يقول فقط الأشياء التي لا ينبغي ؛ قد يكون عمل الأشياء لا ينبغي.

تورط بليني يضيف بعدًا آخر.
من خلال خادم Discord “BASI Proper1NG” والمظاهرات العادية ، كان يدرس فن كسر الحماية.
قد يبدو هذا النهج التعليمي غير بديهي ، لكنه يعكس فهمًا متزايدًا بأن المتانة تنبع من فهم المدى الكامل من الهجمات المحتملة-مسعى حاسم ، بالنظر إلى مخاوف يوم القيامة من AI الفائقة الكثافة التي تستعبها الإنسانية.
حرره جوش كويتنر وسيباستيان سنكلير