تطبيقات النسخ والكتابة الصوتية بالعربية دون إنترنت: مقارنة دقة النماذج، الحجم والسرعة — 2025
مقدمة: لماذا يزداد الاهتمام بالنسخ الصوتي العربي دون إنترنت؟
النسخ والكتابة الصوتية (Speech‑to‑Text) بالعربية أصبحت أداة أساسية للمحتوى، التعليم، الصحافة والعمل المكتبي. الحاجة لنسخ صوتي يعمل دون اتصال تزداد بسبب الخصوصية، العمل على أرضية بدون إنترنت، وحساسية المحتوى المهني. في 2024–2025 شهدنا نموًا في أدوات وحزم تُشغّل نماذج مفتوحة المصدر على الجهاز (on‑device) مثل whisper.cpp وVosk، بالإضافة إلى دعم أبل لوظائف الإملاء المحلية التي تضم العربية؛ ما يجعل الإمكانات العملية على الهاتف المحمول في تطور سريع.
في هذا المقال نقدم مقارنة عملية بين الأنواع الرئيسية: نماذج Whisper (المحوّلة لتشغيل محليًا عبر whisper.cpp أو إصدارات مُخففة مثل "turbo"), محركات خفيفة الوزن مثل Vosk، وحلول التطبيقات الجاهزة التي توفّر وضعًا دون إنترنت—مع توصيات لاختيار الحل المناسب لهاتفك واحتياجاتك.
كيف نقيّم الحلول؟ معايير المقارنة
- الدقة (WER/CER): نعتمد قياسات واقعية عند الإمكان؛ نماذج كبيرة متعددة اللغات تعطي دقة أعلى عمومًا، لكن التحسينات المخصّصة للهجات (fine‑tuning) تُحسّن النتائج على اللهجات الشائعة مثل المصرية أو الشامية.
- حجم النموذج والتخزين: حجم ملف النموذج يحدد قابلية التشغيل على هاتف؛ إصدارات ggml المحوّلة من Whisper تراوح بين مئات ميغابايت إلى عدة غيغابايت، بينما نماذج Vosk عادة صغيرة (عشرات إلى مئات ميغابايت).
- الزمن الحقيقي/الزمن الفعلي (Latency): يعتمد على حجم النموذج، توافر تسريع بواسطة NPU/Metal/CoreML أو استخدام تعويمات (quantized)؛ النماذج المقطّعة/المخفّفة (turbo) تقدّم توازنًا جيدًا بين سرعة ودقة.
- خصوصية وخصوصية البيانات: الحلول المحلية لا ترسل بياناتك للسحابة، وهذا مهم عند التعامل مع محتوى حساس أو مهني.
ملخص المقارنة التقنية (نموذجية)
فيما يلي مقارنة مركّزة بين التقنيات والحلول العملية المتاحة لمستخدم الهاتف العربي الذي يريد نسخًا دون إنترنت:
1) Whisper (محلي عبر whisper.cpp أو إصدارات ggml)
- الدقة: عالية جدًا على الكلام البالغ ومجالات التدريب العامة؛ تتحسّن عند استخدام نماذج مخصّصة للهجات العربية.
- حجم النموذج: إصدارات ggml تتراوح تقريبًا—tiny ~75MB، base ~142MB، small ~466MB، medium ~1.5GB، large-v3 ~2.9GB (ggml)؛ وإصدار turbo أو المصغّر قد يكون ~1.6GB أو أقل عند الكمية الكمية (quantization).
- السرعة: على معالجات حديثة (ARM64 مع تسريع Metal/CoreML أو NPU) يمكن أن تصل إلى زمن أقل من الوقت الحقيقي مع الإصدارات المخفّفة؛ دون تسريع ستبقى أبطأ على الهواتف القديمة.
- الملاءمة للهاتف: مجدية على هواتف ذات ذاكرة تخزين كافية و/أو عندما تُستخدم النسخ المصغرة أو مُحوّلة إلى int8/int4.
2) Vosk (نماذج خفيفة ومفتوحة المصدر)
- الدقة: جيدة للمفردات العامة والمحادثات الواضحة، قد تحتاج ضبطًا لـVAD أو قاموس كلمات مخصّص للهجات.
- حجم النموذج: ملفات نموذجية صغيرة (عشرات إلى مئات ميغابايت)، مناسبة للأجهزة منخفضة الموارد.
- السرعة: زمن استجابة قريب للحظيّة (low latency) على معظم الهواتف.
3) حلول التطبيقات الجاهزة (تطبيقات App Store / Play مع خيار دون إنترنت)
- أمثلة: تطبيقات "Offline Dictation" أو إضافات المتصفح التي تعلن عن معالجة محلية للعربية—توفر سهولة استخدام لكن قد تختلف الدقة حسب المحرك المستعمل.
- الخصوصية: ممتازة إن كانت فعلاً معالجة محليّة، تحقق من تصريح الخصوصية قبل الاستخدام.
نصائح عملية لاختيار الحل المناسب لهاتفك
- حدد هدفك: تدوين محاضرات / تفريغ مقابلات طويلة يحتاج دقة أعلى من تدوين ملاحظات سريعة. للنصوص الطويلة اختَر نماذج أكبر أو مخصّصة للهجة.
- تحقّق من المساحة والذاكرة: إذا هاتفك يملك 8–12 جيجابايت رامات ومساحة تخزين حرة 5+ جيجابايت فبإمكانك تجربة نماذج متوسطة‑كبيرة من Whisper (medium / large‑v3 أو turbo مع quantization). للهواتف ذات موارد محدودة، اختر Vosk أو نماذج whisper الصغيرة (tiny/base) بصيغة ggml.
- استفد من التعجيل (NPU/Metal/CoreML): إن توفر دعم CoreML (iPhone) أو Metal/NNAPI/NN accelerators على Android فستحصل على سرعة أفضل وتجربة أقرب للزمن الحقيقي. مشاريع مثل whisper.cpp ومحولات ggml تُوفّر مسارات بناء مخصّصة لذلك.
- جرّب نموذجًا مُصغّرًا أولًا: ابدأ بنموذج small أو medium لتقييم الدقة ثم اصعد إن لزم.
- الخصوصية وإدارة البيانات: عطل الشبكة/وضع الطيران أثناء النسخ إذا أردت تجنب أي إرسال بيانات، وتحقق من سياسة التطبيق حول التخزين المحلي والسجلات.
قائمة تحقق سريعة قبل التنصيب
- مساحة تخزين حرة كافية لنموذج ggml المختار.
- إصدار نظام تشغيل يدعم أدوات البناء (iOS: دعم CoreML/Metal أو macOS build tools، Android: NDK وtermux/Flutter wrapper إن لزم).
- اختبار عملي على مقطع عيني لتقييم WER بنفس لهجتك.
خلاصة وتوصيات للمستخدم العربي في 2025
النسخ الصوتي بالعربية دون إنترنت بات واقعًا عمليًا أكثر من أي وقت مضى. للاستخدام السريع والخصوصيّة: ابحث عن تطبيقات تُعالج محليًا أو استعمل محركات خفيفة مثل Vosk. للنسخ عالي الدقة وإمكانية معالجة لهجات متعددة، نماذج Whisper المحوّلة عبر whisper.cpp أو الإصدارات المصغّرة/"turbo" تقدّم أفضل توازن بين دقة وسرعة، مع ضرورة الانتباه لمتطلبات التخزين والذاكرة.
إذا كنت مطوِّرًا أو تريد حلاً قابلًا للتجربة: ابدأ بنموذج ggml صغير (tiny/base) لتقييم أداء جهازك، ثم جرّب نموذجًا مُخصّصًا للهجة عبر Hugging Face أو نماذج مُحسّنة عند الحاجة. أمّا للمستخدم النهائي ولا يريد التثبيت التقني، فابحث عن تطبيقات تذكر صراحةً "معالجة محلية" أو "offline" وتتحقق من سياسة الخصوصية قبل الاستخدام.
روابط مفيدة للبدء (للمطورين والمستخدمين المتقدّمين):
- مشروع whisper.cpp (نماذج ggml متاحة وتشغيل محلي): مستودعات توضيحية وأحجام نماذج.
- Vosk (محرك مفتوح يدعم العربية ونماذج صغيرة): صفحات النماذج والوثائق.
- نماذج Whisper مخصّصة للهجات العربية موجودة على Hugging Face (نماذج Fine‑Tuned).
هل ترغب أن أعدّ لك توصية مخصّصة لهاتفك (طراز، سعة تخزين، نظام تشغيل) مع ملف خطوات لتنزيل نموذج وتشغيله عمليًا؟ أخبرني بموديل الهاتف وإصدار نظام التشغيل وسأضع لك خطة خطوة‑بـ‑خطوة.