Top

حجم مجموعة البيانات عامل حاسم في تحسين التوقعات

طُبق النموذج على مجموعة بيانات مكانية لحوض نهر الميسيسبي في الولايات المتحدة الأمريكية لتحسين فهم العمليات الهيدرولوجية وتغير المناخ.

طور باحثون في جامعة الملك عبدالله للعلوم والتقنية أداة إحصائية جديدة لنمذجة مجموعات البيانات البيئية والمناخية. ولهذه الأداة تطبيقات واسعة كالتنبؤ بالطقس والتحذير من الفيضانات وإدارة الري.

تمتاز مجموعات البيانات المناخية والبيئية بضخامتها في أغلب الأحيان، وهي تضم قياسات أخذت من مواقع كثيرة خلال فترات زمنية طويلة. وتفرض ضخامة قياسات عيناتها وارتفاع بعديتها تحديات إحصائية وحسابية كبيرة. ومن الجدير بالذكر أن نماذج العملية الغاوسية المستخدمة في الإحصائيات المكانية مثلاً تواجه صعوبات كبيرة بسبب العبء الحسابي الهائل، وتعتمد على عينات ثانوية أو على تحليل البيانات المكانية لمنطقة تلو الأخرى.

طورت الأستاذ المساعد ينغ صن من قسم العلوم والهندسة الحاسوبية والكهربائية والحسابية مع طالب الدكتوراه الذي تشرف عليه، هوانغ هوانغ، طريقة جديدة تستخدم مخطط تقريب هرمي منخفض الرتبة للتصدي لمشكلة العبء الحسابي. وتمثل هذه الطريقة أداة فعالة لإدخال نماذج عملية غاوسية في مجموعات البيانات التي تحوي كميات ضخمة من القياسات المناخية والبيئية.           

ويشرح هوانغ: "من مزايا طريقتنا أننا نطبق التقريب منخفض المرتبة هرمياً عند إدخال نموذج العملية الغاوسية، مما يتيح تحليل مجموعات البيانات المكانية الضخمة دون حسابات زائدة. ولكن التحدي يكمن في الحفاظ على دقة التقدير باستخدام تقريب فعال حسابياً".        

تمتاز الطرق التقليدية منخفضة المرتبة بالسرعة الحسابية العالية عادة، ولكنها غالباً ما تفتقر إلى الدقة. ولذلك، عمل الباحثون على جعل التقريب منخفض المرتبة هرمياً، لضمان أن مصفوفة التغاير المستخدمة لتحديد مواصفات الترابط في البيانات المكانية تحديداً كاملاً ليست منخفضة المرتبة: وهذا يجعلها سريعة بمقدار سرعة الطرق التقليدية مع دقة أعلى بكثير.

وأجرى الباحثون تحليلاً عددياً وعمليات محاكاة بغية تقييم أداء نموذجهم، فوجدوا أن أداءه أفضل بكثير من أداء معظم الطرق شائعة الاستخدام. ويضمن هذا إمكانية إجراء تخمينات موثوقة من مجموعات بيانات واقعية.   

وطُبق النموذج على مجموعة بيانات مكانية تضم مليوني قياس لرطوبة التربة من حوض نهر الميسيسبي في الولايات المتحدة الأمريكية. وتمكنوا من إدخال نموذج العملية الغاوسية لفهم التنوع المكاني والتنبؤ بقيم في مواقع لم تؤخذ منها عينات. وأدى هذا إلى فهم أفضل للعمليات الهيدرولوجية كتوليد الجريان السطحي ونشوء الجفاف وتغير المناخ في المنطقة.

وتقول صن: "تقدم أبحاثنا أداة فعالة للاستدلال الإحصائي للبيانات المكانية الضخمة. وعندما يتعذر إجراء حسابات دقيقة، يمكن لعلماء البيئة استخدام منهجيتنا للتعامل مع مجموعات البيانات الضخمة عوضاً عن الاكتفاء بتحليل عينات ثانوية فقط. وذلك يجعلها تقنية عملية وجذابة لمجموعات البيانات المناخية والبيئية الضخمة جداً."

 

لقراءة الموضوع على موقعنا باللغة الإنجليزية، الرجاء الضغط هنا