تكساس 6 نونبر 2025 – وكالات
حذر باحثون من أن النماذج اللغوية الكبيرة قد تصبح أقل دقة وأكثر عرضة للأخطاء عندما ت در ب على كميات ضخمة من المحتوى منخفض الجودة المنتشر على شبكات التواصل الاجتماعي.
ووفقا لدراسة ن شرت في مجلة “Nature”، قام علماء من جامعة تكساس في أوستن بتحليل تأثير البيانات “غير المفيدة”، مثل المنشورات القصيرة السطحية ومواد الإثارة، على سلوك الذكاء الاصطناعي.
ورك زت الدراسة على جوانب متعددة تشمل المنطق والاستدلال، واستخراج المعلومات من النصوص الطويلة، والأخلاقيات، وحتى السمات الشخصية للنماذج.
وأظهرت النتائج أنه كلما ارتفعت نسبة البيانات الرديئة في عملية التدريب، زادت أخطاء النماذج اللغوية وتراجع منطقها، بما في ذلك في الاختبارات متعددة الخيارات.
وأكد التحليل الجديد أهمية انتقاء البيانات بعناية عند تدريب النماذج. فقد استخدم الباحثون مليون منشور من منصة تواصل اجتماعي شهيرة لإعادة تدريب النموذجين المفتوحين “Llama 3” وهو نموذج لغوي كبير من شركة “ميتا”، و”Qwen”، وهو سلسلة من نماذج الذكاء الاصطناعي من شركة “Alibaba Cloud”، حيث ي عرف الأول باتباع التعليمات، بينما ي صنف الثاني كنموذج استدلالي.
وأظهر التحليل أن نموذج “Llama” تغي ر سلوكه بعد التدريب على البيانات منخفضة الجودة، إذ انخفضت السمات “الإيجابية” وظهرت سمات “سلبية” أخرى.
أما محاولات تصحيح الخلل، مثل إعادة التدريب على بيانات عالية الجودة أو تعديل التعليمات، فقد حس نت الأداء جزئيا فقط، بينما استمرت مشكلات التفكير المنطقي وتخطي الخطوات التحليلية.
ويكتسي هذا الموضوع أهمية خاصة، لا سيما في ظل توجه منصات التواصل الاجتماعي إلى توسيع استخدام بيانات المستخدمين لتدريب أنظمة الذكاء الاصطناعي.

