تكنولوجيا | دراسة لغوغل: دقة روبوتات الدردشة المعتمدة على الذكاء الاصطناعي تقارب 70%
أظهرت دراسة حديثة أجرتها شركة غوغل وجود حدود واضحة في دقة روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي، إذ بيّنت النتائج أن متوسط الدقة لا يتجاوز نحو 70% في عدد كبير من حالات الاستخدام، ما يعكس فجوة مستمرة بين الطلاقة اللغوية التي تظهرها هذه النماذج وقدرتها الفعلية على تقديم إجابات دقيقة.
وجاءت هذه النتائج في تقرير تقني مفصل من 18 صفحة أعدّته مختبرات «ديب مايند» التابعة لغوغل، ركّز على منهجية التقييم وأسباب التفاوت في أداء النماذج، حيث أشار إلى أن هذه الأنظمة قد تخطئ في نحو سؤال واحد من كل ثلاثة أسئلة، حتى عندما تبدو الإجابات متماسكة ومقنعة من حيث الصياغة.
وبيّن التقرير أن نموذج «جيميناي 3 برو» حقق أعلى نتيجة إجمالية بنسبة تجاوزت 69%، تلاه «جيميناي 2.5 برو» بنسبة 62%، ثم «جي بي تي 5» بنسبة 61.8%، في حين سجلت نماذج أخرى نسباً أقل، ما يدل على تباين واضح في مستوى الدقة بين الأنظمة المتنافسة.
واعتمدت الدراسة على مجموعة من المعايير المصممة لقياس جوانب مختلفة من قدرات النماذج، شملت قدرتها على استدعاء المعرفة الداخلية عند التعامل مع أسئلة واقعية، وكفاءتها في استخدام أدوات البحث عبر الإنترنت لاسترجاع المعلومات وتجميعها، إضافة إلى قدرتها على فهم الصور والإجابة عن الأسئلة المرتبطة بها، وكذلك مدى التزامها بالسياق المُوجَّه وقدرتها على إنتاج إجابات منسجمة معه.
ونُفذت هذه الدراسة بالتعاون مع مجتمع «كاغل» المتخصص في علوم البيانات، حيث أُنتج عدد كبير من النتائج لكل معيار وأُتيحت بصورة مفتوحة للمجتمع العلمي، في حين احتفظت غوغل بجزء من الاختبارات بصورة خاصة، واحتُسبت النتائج النهائية بناءً على متوسط الأداء في الاختبارات العامة والخاصة معاً.
وشمل التقييم مجالات معرفية متنوعة، من بينها الموسيقى والتكنولوجيا والتاريخ والعلوم والرياضة والسياسة، إضافة إلى محتوى ترفيهي مثل البرامج التلفزيونية، وقد أظهرت النتائج اختلافاً ملحوظاً في أداء النماذج تبعاً للمجال ونوعية الأسئلة، ما يشير إلى محدودية قدرتها على التعميم عبر سياقات مختلفة.
وعلى الرغم من تصدّر «جيميناي 3 برو» الترتيب العام، كشفت النتائج التفصيلية عن اختلافات لافتة بين المعايير، إذ تفوّق «جي بي تي 5» في بعض جوانب التقييم، في حين ظل فهم المحتوى متعدد الوسائط من أضعف النقاط لدى معظم النماذج.
كما أظهرت الدراسة أن بعض النماذج سجلت مستويات أداء متدنية نسبياً، حيث لم يتجاوز متوسط أحدها 36%، مع انخفاض حاد في قدرته على التعامل مع الصور أو استدعاء المعرفة الداخلية، ما يعكس تفاوتاً كبيراً في نضج هذه التقنيات.
وتخلص الدراسة إلى أن هذه النتائج، رغم التقدم السريع في تطوير نماذج الذكاء الاصطناعي، تؤكد وجود قصور حالي يستوجب الحذر عند استخدامها في القطاعات الحساسة، مثل الصحة والمال، حيث قد تترتب على الأخطاء آثار كبيرة، الأمر الذي يبرز أهمية التحقق والمراجعة البشرية قبل الاعتماد الواسع على هذه الأنظمة