تعتبر المحولات المدمجة التي يتم ضبطها على مجموعة بيانات جديدة عملية مهمة يمكن أن تعزز بشكل كبير من أداء هذه النماذج القوية وقدرة على التكيف. كمورد للمحولات المدمجة ، شاهدت مباشرة التأثير التحويلي الذي يمكن أن يحدثه الضبط الصحيح على التطبيقات المختلفة. في هذه المدونة ، سأشارك بعض الأفكار والخطوات العملية حول كيفية ضبط المحولات المدمجة على مجموعة بيانات جديدة.
فهم المحولات المدمجة
قبل الخوض في عملية الضبط الدقيقة ، من الضروري أن يكون لديك فهم واضح لماهية المحولات المدمجة.محولات مدمجةهي نوع من بنية المحولات المصممة لتكون أكثر كفاءة من حيث الموارد الحسابية واستخدام الذاكرة مع الحفاظ على الأداء العالي. وهي مناسبة بشكل خاص للتطبيقات التي تشكل فيها قيود الموارد مصدر قلق ، مثل أجهزة Edge والمنصات المحمولة.
تستفيد هذه المحولات من قوة آليات الاهتمام الذاتي ، والتي تسمح لها بالتقاط تبعيات بعيدة المدى في بيانات الإدخال. من خلال تقليل عدد المعلمات والتعقيد الحسابي ، يمكن للمحولات المدمجة تحقيق أداء مماثل أو حتى أفضل من المحولات التقليدية في العديد من السيناريوهات.
إعداد مجموعة البيانات الجديدة
تتمثل الخطوة الأولى في ضبط المحولات المدمجة على مجموعة بيانات جديدة في إعداد البيانات. يتضمن هذا العديد من المهام الرئيسية:
جمع البيانات
جمع مجموعة بيانات تمثيلية ذات صلة بالتطبيق المستهدف. يجب أن تغطي مجموعة البيانات مجموعة واسعة من الأمثلة لضمان تعميم النموذج بشكل جيد. النظر في حجم وتنوع وجودة البيانات ، حيث أن هذه العوامل يمكن أن تؤثر بشكل كبير على عملية الضبط.
تنظيف البيانات
قم بتنظيف مجموعة البيانات عن طريق إزالة أي ضوضاء أو القيم المتطرفة أو نقاط بيانات غير متناسقة. هذا يمكن أن يحسن جودة بيانات التدريب ومنع النموذج من تعلم الأنماط غير الصحيحة. تتضمن تقنيات تنظيف البيانات الشائعة تطبيع البيانات ، وضغط القيمة المفقودة ، والاكتشاف الخارجي.
شرح البيانات
إذا كانت مجموعة البيانات تتطلب شرحًا ، فتأكد من أن يتم ذلك بدقة ومتسقة. يمكن أن يتضمن التعليق التوضيحي مهام مثل وضع العلامات على الصور أو تصنيف النص أو تجزئة الكائنات. يمكن أن يكون لجودة التعليق التوضيحي تأثير مباشر على أداء النموذج الذي تم ضبطه.
تقسيم البيانات
تقسيم مجموعة البيانات إلى مجموعات التدريب والتحقق من صحة ومجموعة الاختبار. تُستخدم مجموعة التدريب لتدريب النموذج ، ويتم استخدام مجموعة التحقق من الصحة لتقييم أداء النموذج أثناء التدريب وضبط المقاييس المفرطة ، ويتم استخدام مجموعة الاختبار لتقييم الأداء النهائي للنموذج الذي تم ضبطه. نسبة الانقسام الشائعة هي 70:15:15 لتدريب مجموعات التدريب والتحقق من الصحة والاختبار ، على التوالي.
اختيار نموذج تدريب مسبقًا
بمجرد إعداد مجموعة البيانات ، فإن الخطوة التالية هي اختيار نموذج محول مضغوط مدرب مسبقًا. هناك العديد من النماذج التي تم تدريبها مسبقًا ، ولكل منها خصائص بنية وأداءها. ضع في اعتبارك العوامل التالية عند اختيار نموذج تم تدريبه مسبقًا:
النموذج العمارة
حدد بنية نموذجية مناسبة للتطبيق المستهدف. قد يكون للبنية المختلفة نقاط قوة وضعف مختلفة ، لذلك من المهم اختيار واحدة تتماشى مع المتطلبات المحددة للمهمة.
حجم النموذج
النظر في حجم النموذج الذي تم تدريبه مسبقًا من حيث عدد المعلمات. قد تكون النماذج الأصغر أكثر ملاءمة للبيئات المقيدة للموارد ، في حين أن النماذج الأكبر قد توفر أداء أفضل في المهام المعقدة.
أداء النموذج
تقييم أداء النموذج الذي تم تدريبه مسبقًا على المعايير ذات الصلة أو مجموعات البيانات المماثلة. يمكن أن يمنحك هذا فكرة عن مدى جودة أداء النموذج على مجموعة البيانات الجديدة.
صقل النموذج
بعد اختيار نموذج تم تدريبه مسبقًا ، تتمثل الخطوة التالية في ضبطها على مجموعة البيانات الجديدة. تتضمن عملية الضبط عادة الخطوات التالية:
تهيئة النموذج
قم بتحميل النموذج الذي تم تدريبه مسبقًا وتهيئة أوزانه. يمكنك استخدام الأوزان التي تم تدريبها مسبقًا كنقطة انطلاق لعملية الضبط ، والتي يمكن أن تقلل بشكل كبير من وقت التدريب وتحسين أداء النموذج.
تحديد وظيفة الخسارة
اختر وظيفة خسارة مناسبة تقيس الفرق بين تنبؤات النموذج وعلامات الحقيقة الأساسية. يعتمد اختيار وظيفة الخسارة على نوع المهمة ، مثل التصنيف أو الانحدار أو التجزئة. وتشمل وظائف الخسارة الشائعة فقدان الإدخال المتقاطع ، وفقدان الخطأ التربيعي ، وفقدان النرد.
اختيار المحسن
حدد مُحسّنًا يقوم بتحديث أوزان النموذج أثناء التدريب. تشمل المحسنات الشائعة النسب المتدرج العشوائي (SGD) وآدم و Adagrad. يمكن أن يؤثر اختيار المحسن على سرعة التقارب وأداء النموذج.
تدريب النموذج
تدريب النموذج على مجموعة التدريب باستخدام وظيفة الخسارة المحددة والمحسّنة. أثناء التدريب ، راقب أداء النموذج على مجموعة التحقق من الصحة لمنع الزائد. يمكنك استخدام تقنيات مثل الإيقاف المبكر ، مما يوقف عملية التدريب عندما يتوقف الأداء على مجموعة التحقق من الصحة.
ضبط الفائقة
قم بضبط المقاييس المفرطة للنموذج ، مثل معدل التعلم وحجم الدُفعة وعدد عصر التدريب. يمكن أن يؤثر ضبط الفائقة على أداء النموذج الذي تم ضبطه بشكل كبير ، لذلك من المهم تجربة قيم مختلفة للعثور على الإعدادات المثلى.


تقييم النموذج المضبوط
بمجرد ضبط النموذج ، فإن الخطوة التالية هي تقييم أدائه على مجموعة الاختبار. يتضمن ذلك قياس دقة النموذج أو الدقة أو الاستدعاء أو F1-Score أو غيرها من المقاييس ذات الصلة اعتمادًا على نوع المهمة. قارن أداء النموذج الذي تم ضبطه مع النموذج الذي تم تدريبه مسبقًا ونماذج أساسية أخرى لتقييم فعاليته.
نشر النموذج المضبوط
بعد تقييم النموذج الذي تم ضبطه ، إذا كان يفي بمتطلبات الأداء ، فيمكن نشره في التطبيق المستهدف. قد يتضمن ذلك دمج النموذج في بيئة إنتاج ، مثل تطبيق الويب أو تطبيق الهاتف المحمول أو جهاز الحافة. النظر في العوامل التالية عند نشر النموذج:
ضغط النموذج
اضغط على النموذج المعروف لتقليل حجمه وتحسين سرعة الاستدلال. تشمل تقنيات ضغط النموذج التقليم والتكميلية وتقطير المعرفة.
تحسين النموذج
قم بتحسين النموذج لمنصة الأجهزة المستهدفة لضمان تنفيذ فعال. قد يتضمن ذلك استخدام المكتبات أو الأطر الخاصة بالأجهزة ، مثل Tensorrt لـ NVIDIA GPU أو CORE ML لأجهزة Apple.
مراقبة النموذج
راقب أداء النموذج المنشور في الوقت الفعلي للكشف عن أي مشكلات أو تدهور في الأداء. هذا يمكن أن يساعد في ضمان موثوقية واستقرار التطبيق.
الاتصال للمشتريات والتشاور
إذا كنت مهتمًا باستكشاف إمكانات المحولات المدمجة لتطبيقاتك المحددة أو تحتاج إلى مساعدة من خلال صقل هذه النماذج ونشرها ، فنحن هنا للمساعدة. يتمتع فريق الخبراء لدينا بخبرة واسعة في العمل معمحولات مدمجةويمكن أن توفر لك حلول مخصصة لتلبية احتياجاتك. سواء كنت تبحث عنطاقة جديدة معدات توزيع متطورة من الطاقة الكهروضوئية المدمجة من الطاقة الكهروضوئيةأومحول محطة فرعية مدمجة، لدينا المنتجات والخبرة لدعم مشاريعك.
لا تتردد في التواصل معنا لبدء مناقشة حول متطلباتك وكيف يمكننا مساعدتك في تحقيق أهدافك. نتطلع إلى فرصة العمل معك والمساهمة في نجاح مبادراتك.
مراجع
- Dosovitskiy ، A. ، Beyer ، L. ، Kolesnikov ، A. ، Weissenborn ، D. ، Zhai ، X. ، Unterthiner ، T. ، ... & Houlsby ، N. (2020). تستحق الصورة 16 × 16 كلمات: محولات للتعرف على الصور على نطاق واسع. Arxiv preprint Arxiv: 2010.11929.
- Vaswani ، A. ، Shazer ، N. ، Parmar ، N. ، Uszkoreit ، J. ، Jones ، L. ، Gomez ، An ، ... & Polosukhin ، I. (2017). الاهتمام هو كل ما تحتاجه. التقدم في أنظمة معالجة المعلومات العصبية ، 5998-6
- Devlin ، J. ، Chang ، MW ، Lee ، K. ، & Toutanova ، K. (2018). بيرت: ما قبل التدريب من محولات ثنائية الاتجاه العميقة لفهم اللغة. Arxiv preprint Arxiv: 1810.04805.
