مرحبًا يا من هناك! كمورد للمحولات المدمجة ، كنت في أعماق هذه الأجهزة الأنيقة. أحد الجوانب الأكثر أهمية التي يمكن أن تجعل أو كسر أداء المحولات المدمجة هو المعالجة المسبقة للبيانات. لذلك ، دعونا نغوص في ما أعتقد أنه أفضل طريقة لمعالجة البيانات المسبقة لهذه المحولات.
أولاً ، لماذا تعتبر المعالجة المسبقة للبيانات مهمة للغاية للمحولات المدمجة؟ حسنًا ، يتم استخدام المحولات المدمجة في مجموعة واسعة من التطبيقات ، منمحول محطة فرعية مدمجةفي الشبكات الكهربائية لطاقة جديدة متكاملة من الطاقة الكهروضوئية المدمجة مسبقا كابينة المحولات MV و HV القطع - معدات توزيع الحافة. يمكن أن تكون البيانات التي يتعاملون معها فوضويًا وصاخبة وغير متسقة. إذا لم نعالج البيانات مسبقًا بشكل صحيح ، فقد يؤدي ذلك إلى تنبؤات غير دقيقة وضعف الأداء وحتى فشل النظام.
تنظيف البيانات
الخطوة الأولى في البيانات قبل المعالجة هي التنظيف. هذا يشبه ترتيب غرفة فوضوية قبل أن تتمكن من البدء في استخدامها بفعالية. في سياق المحولات المدمجة ، قد يكون للبيانات التي نجمعها القيم المفقودة أو القيم المتطرفة أو الإدخالات غير الصحيحة.
القيم المفقودة مشكلة شائعة. يمكن أن تحدث بسبب أعطال المستشعر أو أخطاء الاتصال أو مجرد خطأ بشري عادي. تتمثل إحدى طرق التعامل مع القيم المفقودة في إزالة الصفوف أو الأعمدة مع البيانات المفقودة. ولكن هذا يمكن أن يكون متطرفًا بعض الشيء ، خاصةً إذا كنا نتعامل مع بيانات محدودة. النهج الأفضل هو فرض القيم المفقودة. يمكننا استخدام طرق مثل متوسط التضمين ، حيث نستبدل القيمة المفقودة بمتوسط القيم غير المفقودة في هذا العمود. على سبيل المثال ، إذا نظرنا إلى بيانات درجة الحرارة لمحول مضغوط وهناك قراءة في درجة الحرارة المفقودة ، فيمكننا حساب متوسط درجة حرارة جميع القراءات الأخرى واستخدامها كبديل.
القيم المتطرفة هي صداع آخر. هذه نقاط بيانات تختلف اختلافًا كبيرًا عن بقية البيانات. يمكن أن يكون سببها مواطن خلل المستشعر أو ظروف التشغيل غير الطبيعية. يمكننا تحديد القيم المتطرفة باستخدام الأساليب الإحصائية مثل النطاق الرباعي (IQR). بمجرد تحديدها ، يمكننا إما إزالتها أو تحويلها. على سبيل المثال ، يمكننا استخدام تحويل السجل لتقليل تأثير القيم المتطرفة.
تطبيع
بعد تنظيف البيانات ، فإن الخطوة التالية هي التطبيع. هذا أمر مهم لأن الميزات المختلفة في بياناتنا قد تحتوي على مقاييس مختلفة. على سبيل المثال ، قد تتراوح بيانات الجهد لمحول مضغوط من بضعة فولت إلى آلاف فولت ، في حين أن البيانات الحالية قد تكون في نطاق ملليامير إلى أمبير. إذا لم نقم بتطبيع البيانات ، فيمكن أن تهيمن الميزات ذات المقاييس الكبيرة على التحليل ، وقد يتم التغاضي عن الميزات ذات المقاييس الأصغر.
هناك العديد من طرق التطبيع التي يمكننا استخدامها. واحدة من أكثرها شعبية هو Min - Max التطبيع. تقوم هذه الطريقة بتوسيع نطاق البيانات بحيث تكون جميع القيم بين 0 و 1. الصيغة للتطبيع Min - Max هي (x_ {norm} = \ frac {x - x_ {min}} {x_ {max} -x_ {min}}) ، حيث (x) هي القيمة الأصلية ، (x_ {min}) القيمة القصوى. طريقة أخرى هي Z - تطبيع الدرجة ، والتي توحيد البيانات بحيث يكون لها متوسط 0 وانحراف معياري لـ 1. صيغة تطبيع الدرجات z - هي (z = \ frac {x- \ mu} {\ sigma}) ، حيث (x) هي القيمة الأصلية ، (\ mu) هي متوسط مجموعة البيانات ، و (\ sigma).
اختيار الميزة
اختيار الميزات يدور حول اختيار الميزات الأكثر صلة بتحليلنا. في حالة المحولات المدمجة ، قد نجمع الكثير من البيانات من أجهزة استشعار مختلفة ، ولكن ليس كلها مفيدة. على سبيل المثال ، قد نجمع البيانات عن لون غلاف المحول ، ولكن ربما لن يكون لهذا أي تأثير على أدائها.
هناك نوعان رئيسيان من طرق اختيار الميزات: طرق التصفية وطرق التفاف. تستخدم طرق المرشح مقاييس إحصائية لتصنيف الميزات بناءً على أهميتها. على سبيل المثال ، يمكننا استخدام تحليل الارتباط لمعرفة الميزات المرتبطة ارتباطًا وثيقًا بالإخراج الذي يهتم به ، مثل كفاءة المحول المدمج. طرق الغلاف ، من ناحية أخرى ، استخدم خوارزمية التعلم الآلي لتقييم مجموعات فرعية مختلفة من الميزات. تبدأ بمجموعة أولية من الميزات ثم إضافة أو إزالة الميزات بناءً على مدى أداء النموذج.


ترميز البيانات الفئوية
بالإضافة إلى البيانات العددية ، قد يكون لدينا أيضًا بيانات فئوية عند التعامل مع المحولات المدمجة. على سبيل المثال ، يمكن أن يكون نوع العزل المستخدم في المحول متغيرًا فئويًا ، مع قيم مثل "الزيت - ملء" ، "نوع جاف -" ، إلخ. عادةً ما لا تستطيع خوارزميات التعلم الآلي التعامل مع البيانات الفئوية مباشرة ، لذلك نحتاج إلى ترميزها.
طريقة تشفير واحدة شائعة هي واحدة - الترميز الساخن. هذا يخلق عمود ثنائي جديد لكل فئة. على سبيل المثال ، إذا كان لدينا ثلاثة أنواع من العزل: الزيت - المملوءة ، الجفاف - النوع ، والغاز المعزول ، واحد - الترميز الساخن سيؤدي إلى إنشاء ثلاثة أعمدة جديدة. إذا كان المحول يحتوي على الزيت - العزل المملوء ، فإن العمود المملوء بالزيت سيكون له قيمة 1 ، وسيكون للعمودان الآخران قيمة 0.
زيادة البيانات
يعد زيادة البيانات طريقة رائعة لزيادة حجم وتنوع مجموعة البيانات الخاصة بنا. في سياق المحولات المدمجة ، يمكننا استخدام تقنيات مثل الدوران والتوسيع وإضافة الضوضاء. على سبيل المثال ، يمكننا إضافة كمية صغيرة من الضوضاء العشوائية إلى الجهد والبيانات الحالية لمحاكاة الاختلافات العالمية الحقيقية. هذا يمكن أن يساعد نماذجنا على أن تصبح أكثر قوة وأفضل قدرة على التعميم على البيانات الجديدة.
لماذا كل هذا يهم
كل هذه الخطوات المعالجة المسبقة أمر بالغ الأهمية للحصول على أقصى استفادة من محولاتنا المدمجة. من خلال تنظيف البيانات ، نضمن أن تحليلنا يعتمد على معلومات دقيقة. يساعد التطبيع على أن نماذجنا تتقارب بشكل أسرع وأداء أفضل. اختيار الميزة يقلل من تعقيد نماذجنا ويحسن قابلية تفسيرها. يتيح لنا ترميز البيانات الفئوية استخدام جميع المعلومات المتاحة ، وزيادة البيانات تجعل نماذجنا أكثر مرونة.
إذا كنت في السوقمحولات مدمجة، سترغب في التأكد من إجراء المعالجة المسبقة للبيانات بشكل صحيح. يمكن أن تؤدي مجموعة البيانات التي تم معالجتها قبل البئر إلى تحسين المحولات ، مما يعني انخفاض التكاليف ، وكفاءة أعلى ، وأقل وقت للتوقف.
لنتحدث
إذا كنت مهتمًا بمعرفة المزيد عن محولاتنا المدمجة أو لديك أي أسئلة حول المعالجة المسبقة للبيانات ، أحب أن أسمع منك. سواء كنت مهندسًا تبحث عن أفضل حل لمشروعك أو محترفًا في المشتريات المسؤول عن تحديد محولات عالية الجودة ، فنحن هنا للمساعدة. تواصل معنا ودعونا نبدأ محادثة حول كيفية تلبية احتياجاتك.
مراجع
- Han ، J. ، Kamber ، M. ، & Pei ، J. (2011). استخراج البيانات: المفاهيم والتقنيات. مورغان كوفمان.
- الأسقف ، CM (2006). التعرف على الأنماط والتعلم الآلي. سبرينغر.
