قام Openai بقطع الوقت والموارد التي تنفقها على اختبار سلامة نماذج الذكاء الاصطناعي القوية ، مما أثار مخاوف من أن تقنيتها يتم نقلها دون ضمانات كافية.

تم إعطاء الموظفين ومجموعات الطرف الثالث مؤخرًا أيامًا فقط لإجراء “تقييمات” ، وهو المصطلح المعطى للاختبارات لتقييم مخاطر وأداء النماذج ، على أحدث نماذج اللغة الكبيرة في Openai ، مقارنة بعدة أشهر.

وفقًا لثمانية أشخاص مطلعين على عمليات اختبار Openai ، أصبحت اختبارات بدء التشغيل أقل شمولية ، مع عدم كفاية الوقت والموارد المخصصة لتحديد المخاطر وتخفيفها ، حيث أن بدء التشغيل البالغ 300 مليار دولار يتعرض لضغوط لإصدار نماذج جديدة بسرعة والاحتفاظ بمتنسياتها التنافسية.

“كان لدينا اختبارات سلامة أكثر شمولية متى [the technology] قال أحد الأشخاص الذين يختبرون حاليًا Openai's O3 ، وهو مصمم للمهام المعقدة مثل حل المشكلات والتفكير.

وأضافوا أنه عندما تصبح LLMs أكثر قدرة ، يتم زيادة “الأسلحة المحتملة” للتكنولوجيا. “ولكن نظرًا لوجود المزيد من الطلب على ذلك ، فإنهم يريدون الخروج بشكل أسرع. آمل ألا يكون خطوة خاطئ كارثية ، لكنها متهور. هذه وصفة للكارثة.”

تم تحريك الأزمة الزمنية “ضغوط تنافسية” ، وفقًا للأشخاص المطلعين على هذه المسألة ، حيث يتنافس Openai ضد مجموعات التكنولوجيا الكبيرة مثل Meta و Google والشركات الناشئة بما في ذلك Elon Musk's Xai للاستفادة من التكنولوجيا المتطورة.

لا يوجد معيار عالمي لاختبار سلامة الذكاء الاصطناعي ، ولكن منذ ذلك العام ، سيجبر قانون AI التابع للاتحاد الأوروبي الشركات على إجراء اختبارات السلامة على نماذجها الأقوى. في السابق ، وقعت مجموعات الذكاء الاصطناعى ، بما في ذلك Openai ، التزامات تطوعية مع الحكومات في المملكة المتحدة والولايات المتحدة للسماح للباحثين في معاهد السلامة AI باختبار النماذج.

لقد دفعت Openai لإصدار طراز O3 الجديد في وقت مبكر من الأسبوع المقبل ، مما يمنح أقل من أسبوع لبعض المختبرين لفحوصات السلامة الخاصة بهم ، وفقًا للأشخاص المطلعين على الأمر. يمكن أن يكون تاريخ الإصدار هذا عرضًا للتغيير.

في السابق ، سمح Openai عدة أشهر لاختبارات السلامة. بالنسبة إلى GPT-4 ، الذي تم إطلاقه في عام 2023 ، كان لدى المختبرين ستة أشهر لإجراء تقييمات قبل إصدارها ، وفقًا للأشخاص المطلعين على الأمر.

قال أحد الأشخاص الذين اختبروا GPT-4 إن بعض القدرات الخطرة تم اكتشافها فقط شهرين في الاختبار. وقالوا عن النهج الحالي لـ Openai: “إنهم لا يعطون الأولوية للسلامة العامة على الإطلاق”.

“لا يوجد تنظيم يقول [companies] يجب أن تبقي الجمهور على علم بجميع القدرات المخيفة. . . وقال دانييل كوكوتاجلو ، باحث سابق في Openai الذي يقود الآن مشروع Group AI Futures غير الربحي: “إنهم أيضًا يتعرضون لضغوط كبيرة لتجاوز بعضهم البعض ، لذا لن يتوقفوا عن جعلهم أكثر قدرة”.

التزمت Openai سابقًا ببناء إصدارات مخصصة من نماذجها لتقييم سوء الاستخدام المحتمل ، مثل ما إذا كانت تقنيتها يمكن أن تساعد في جعل الفيروس البيولوجي أكثر انتقالًا.

يتضمن النهج موارد كبيرة ، مثل تجميع مجموعات البيانات من المعلومات المتخصصة مثل علم الفيروسات وتغذيتها للنموذج لتدريبه في تقنية تسمى التثين الدقيق.

لكن Openai قام بذلك فقط بطريقة محدودة ، واختار ضبط طراز أقدم وأقل قدرة بدلاً من طرازه الأكثر قوة وتقدم.

يشير تقرير السلامة والأداء التابع لبدء التشغيل على O3-MINI ، وهو نموذج أصغر تم إصداره في يناير ، كيف تمكنت طراز GPT-4O السابق من أداء مهمة بيولوجية معينة فقط عند ضبطها. ومع ذلك ، لم يبلغ Openai أبدًا عن كيفية تسجيل نماذجها الأحدث ، مثل O1 و O3-Mini ، أيضًا إذا تم ضبطها.

وقال ستيفن أدلر ، باحث سابق سابق في شركة Openai Safety ، الذي كتب مدونة حول هذا الموضوع: “إنه أمر رائع Openai وضع مثل هذا الشريط العالي من خلال الالتزام باختبار إصدارات مخصصة من نماذجها. ولكن إذا لم يكن متابعًا لهذا الالتزام ، فإن الجمهور يستحق أن يعرف”.

وأضاف: “عدم إجراء مثل هذه الاختبارات قد يعني Openai والشركات الأخرى من الذكاء الاصطناعي تقلل من أسوأ مخاطر نماذجها”.

قال الأشخاص المطلعون على مثل هذه الاختبارات إنهم يحملون تكاليف ضخمة ، مثل توظيف خبراء خارجيين ، وإنشاء مجموعات بيانات محددة ، وكذلك استخدام المهندسين الداخليين وقوة الحوسبة.

وقالت Openai إنها حققت كفاءات في عمليات تقييمها ، بما في ذلك الاختبارات الآلية ، والتي أدت إلى انخفاض في الأطر الزمنية. وأضاف أنه لم تكن هناك وصفة متفق عليها لمناهج مثل الضبط ، لكن كان من الواثق أن أساليبها كانت أفضل ما يمكن أن تفعله وتم شفافتها في تقاريرها.

وأضاف أن النماذج ، خاصة بالنسبة للمخاطر الكارثية ، تم اختبارها وتخفيفها من أجل السلامة.

وقال يوهانس هايديك ، رئيس أنظمة السلامة: “لدينا توازن جيد في مدى سرعة تحركنا ومدى شمولية”.

كان هناك قلق آخر نشأ هو أن اختبارات السلامة لا تجري غالبًا على النماذج النهائية التي تم إصدارها للجمهور. بدلاً من ذلك ، يتم تنفيذها على نقاط التفتيش السابقة التي تم تحديثها لاحقًا لتحسين الأداء والقدرات ، مع الإصدارات “القريبة من النهائي” في تقارير سلامة نظام Openai.

وقال أحد موظفي Openai الفني السابق: “من الممارسات السيئة أن تصدر نموذجًا مختلفًا عن النموذج الذي قمت بتقييمه”.

وقال أوبياي إن نقاط التفتيش كانت “متطابقة بشكل أساسي” لما تم إطلاقه في النهاية.

شاركها.
© 2025 خليجي 247. جميع الحقوق محفوظة.