الفصل 06

ما وراء النص

الفصل 6.1: مقدمة للذكاء الاصطناعي متعدد الوسائط

2 دقيقة قراءة

✦

📋 في الوحدة السابقة تعلمت...

✅ تشخيص فشل البرومبتات وإصلاحها بمنهجية ✅ تقنيات متقدمة: ReAct, Tree of Thought, Structured Outputs ✅ Context Engineering — إدارة السياق باحترافية ✅ حماية البرومبتات من الاختراق (Prompt Injection) 🎯 **اليوم:** ستتجاوز عالم النصوص وتدخل عالم الصور والصوت والفيديو!

أحمد يدخل مكتب سارة بابتسامة عريضة: أحمد: "سارة! المشروع يعمل بشكل ممتاز. نسبة النجاح 98%!" سارة: (تبتسم) "مبروك! لكن عندي مفاجأة... المدير يريد إضافة صور ومحتوى مرئي للمشروع!" أحمد: (بدهشة) "صور؟! لكن كل ما تعلمته كان عن النص..." سارة: "لا تقلق! كل ما تعلمته ينطبق على الصور أيضاً. الذكاء الاصطناعي الآن يرى ويسمع... وسنتعلم كيف نتحدث معه بكل اللغات!"

✦

🌐 ما هو Multi-modal AI؟

**الذكاء الاصطناعي متعدد الوسائط** = AI يفهم ويتعامل مع أنواع متعددة من البيانات: 📝 **نص** (ما أتقنته في الوحدات 1-5) 🖼️ **صور** (تحليل وتوليد) 🎵 **صوت** (تحويل وتوليد) 🎬 **فيديو** (الحدود الجديدة) **لماذا هذا مهم؟** • النماذج الحديثة (GPT-4o, Claude 3, Gemini) أصبحت متعددة الوسائط • تطبيقات لا حصر لها: تحليل مستندات، توليد محتوى، أتمتة المهام البصرية

✦

ببساطة

الذكاء الاصطناعي التقليدي يفهم النصوص فقط - مثل شخص يقرأ بدون نظارة. الذكاء الاصطناعي متعدد الوسائط يفهم كل شيء: نصوص + صور + صوت + فيديو - مثل شخص يرى ويسمع ويقرأ! مثال: ترسل له صورة فاتورة مكتوبة بالعربي، ويقرأها ويحولها لجدول Excel. أو ترسل صورة باب خشبي وتسأله "كم عمر هذا الباب؟" ويحلل الشكل ويقدر.

✦

📊 إحصائيات 2026

GPT-4o

يفهم نص + صور + صوت في طلب واحد

Claude 3.5

تحليل صور بدقة تفوق 90% في المهام البصرية

Gemini 2.0

نافذة سياق مليون token تشمل فيديو!

DALL-E 3

توليد صور بجودة احترافية من وصف نصي

Sora

توليد فيديو عالي الجودة حتى دقيقة كاملة

✦

🎯 هدف هذه الوحدة

في نهاية هذه الوحدة ستكون قادراً على: ✅ تحليل الصور واستخراج البيانات منها (Vision Prompting) ✅ توليد صور احترافية بأطر SSCT و SPICE ✅ استخدام Negative Prompts و Style References ✅ التعامل مع الصوت (TTS, STT) ✅ فهم أساسيات Video AI ✅ دمج وسائط متعددة في سير عمل واحد 🚀 **النتيجة:** مشاريع متكاملة تجمع النص والصور والصوت!

🏆

🏆 مكافأة

بدأت رحلة Multi-modal AI؟

⭐+10 نقطة XP

🏅شارة: مستكشف متعدد الوسائط 🌐

العودة إلى الفهرس