مشكلة تدفق الهواء

في عام 2022 ، يدير مهندسو البيانات الغابات وليس الأشجار

لقد كتبت مشاركة مدونة كاملة في محاولة لمعرفة لماذا لا أحب Airflow. ولكن على الرغم من تبريراتي ، فقد شعرت وكأنها رسالة تفكك - شخصية للغاية:

عزيزي تدفق الهواء ،

حاولت أن أجعلها تعمل ، لقد نجحت حقًا. لكنك كبير في السن ، وتجريداتك خرقاء وأعتقد أنك قبيح. انتهى الأمر بيننا.

تحياتي ،

ستيفن

والذي كان من الممكن أن يكون رائعًا ، إلا أنني كنت أعرف بالضبط كيف سيكون رد فعل Airflow:

ستيف - آسف ، لقد استغرق الأمر وقتًا طويلاً للرد ، لقد تم تثبيتي حوالي 10000 مرة في اليوم. لا توجد مشكلة إعادة: المشاعر ، LMK إذا غيرت رأيك. -A

الحقيقة هي أن Airflow هي قصة نجاح: مشروع مفتوح المصدر اخترق نفسية البيانات بدرجة مزعجة. إنه يفعل ما يقول إنه يفعله ، وهو أكثر مما يمكن أن تدعيه معظم الأدوات. تستخدمه الفرق بمقياس 1 وفي عام 20222. أعني ، هناك بناء الجملة هذا >> [مسيء ، فاحش] >> بيثون >> ... لكن أي مشروع يجب أن يكون محظوظًا لأنه مكروه للغاية ، إذا كان مملًا ، فلا مفر منه.

إذًا لماذا لا يمكنني تحمل ذلك؟

ثم أدركت: مشكلتي ليست مع تدفق الهواء. إنها مشكلة تدفق الهواء.

نشكرك على قراءة بيانات People Etc. ! اشترك مجانًا لتلقي مشاركات جديدة ودعم عملي. من الذي ينظم المنسق؟

فيما يلي إحدى الجمل الأولى من ملف README3 الخاص بـ Airflow:

يعمل تدفق الهواء بشكل أفضل مع تدفقات العمل التي تكون في الغالب ثابتة وتتغير ببطء.

لقد كان تصميمًا رائعًا في عام 2015 عندما كان Airflow مفتوح المصدر. هذا لا يزال جيدًا بما يكفي لمعظم الفرق في عام 2022: تعبر DAGs البطيئة والكبيرة والمركزية عن معظم قيم البيانات الحالية ، حتى لو تم فصلها في أدوات SaaS أخرى. 4

ومع ذلك ، فإن وجهة نظري هي أن أكبر قيمة مستقبلية ستأتي من تمكين الفرق من إنشاء تدفقات عمل بيانات أسرع وأبسط وأكثر لامركزية.

في الواقع ، في غضون عام من فتح مصدر Airflow ، كتب Jeff Magnusson من StitchFix "لا ينبغي لمهندسي البيانات كتابة ETL" 5 ودعا إلى قطيعة جذرية مع الملكية المركزية لخطوط أنابيب البيانات: " "نحسن المنظمة من أجل الكفاءة ، نحن نحسن الاستقلالية."

الآن أصبح الضغط على اليسار في كل مكان: يجب على مستخدمي الأعمال تعلم التحليلات ، ويجب على المحللين ممارسة الهندسة ، ويجب على المهندسين تصميم الأنظمة الأساسية.

ومع ذلك ، لم يكن المقصود من Airflow أن يكون منصة غير متجانسة لـ DAGs اللامركزية. إنه محرك جدولة عمل ومعالجة: خذ عبء عمل فريق واحد وقم بتنسيقه وفقًا لجدول زمني ، على غرار نظام مترو الأنفاق. 6

إن وظيفة مهندسي البيانات اليوم أقرب إلى إدارة شبكة النقل بالكامل: قطارات الأنفاق بالطبع ، ولكن أيضًا الشوارع والحافلات وممرات الدراجات. عندما يسقط فريق النمو 1000 دراجة بخارية في الشوارع بين عشية وضحاها ، يجب على مهندسي البيانات التأكد من أنها لا تسبب حوادث أو وفيات. إنها الوظيفة الجديدة.

مشكلة تدفق الهواء
في عام 2022 ، يدير مهندسو البيانات الغابات وليس الأشجار

لقد كتبت مشاركة مدونة كاملة في محاولة لمعرفة لماذا لا أحب Airflow. ولكن على الرغم من تبريراتي ، فقد شعرت وكأنها رسالة تفكك - شخصية للغاية:

عزيزي تدفق الهواء ،

حاولت أن أجعلها تعمل ، لقد نجحت حقًا. لكنك كبير في السن ، وتجريداتك خرقاء وأعتقد أنك قبيح. انتهى الأمر بيننا.

تحياتي ،

ستيفن

والذي كان من الممكن أن يكون رائعًا ، إلا أنني كنت أعرف بالضبط كيف سيكون رد فعل Airflow:

ستيف - آسف ، لقد استغرق الأمر وقتًا طويلاً للرد ، لقد تم تثبيتي حوالي 10000 مرة في اليوم. لا توجد مشكلة إعادة: المشاعر ، LMK إذا غيرت رأيك. -A

الحقيقة هي أن Airflow هي قصة نجاح: مشروع مفتوح المصدر اخترق نفسية البيانات بدرجة مزعجة. إنه يفعل ما يقول إنه يفعله ، وهو أكثر مما يمكن أن تدعيه معظم الأدوات. تستخدمه الفرق بمقياس 1 وفي عام 20222. أعني ، هناك بناء الجملة هذا >> [مسيء ، فاحش] >> بيثون >> ... لكن أي مشروع يجب أن يكون محظوظًا لأنه مكروه للغاية ، إذا كان مملًا ، فلا مفر منه.

إذًا لماذا لا يمكنني تحمل ذلك؟

ثم أدركت: مشكلتي ليست مع تدفق الهواء. إنها مشكلة تدفق الهواء.

نشكرك على قراءة بيانات People Etc. ! اشترك مجانًا لتلقي مشاركات جديدة ودعم عملي. من الذي ينظم المنسق؟

فيما يلي إحدى الجمل الأولى من ملف README3 الخاص بـ Airflow:

يعمل تدفق الهواء بشكل أفضل مع تدفقات العمل التي تكون في الغالب ثابتة وتتغير ببطء.

لقد كان تصميمًا رائعًا في عام 2015 عندما كان Airflow مفتوح المصدر. هذا لا يزال جيدًا بما يكفي لمعظم الفرق في عام 2022: تعبر DAGs البطيئة والكبيرة والمركزية عن معظم قيم البيانات الحالية ، حتى لو تم فصلها في أدوات SaaS أخرى. 4

ومع ذلك ، فإن وجهة نظري هي أن أكبر قيمة مستقبلية ستأتي من تمكين الفرق من إنشاء تدفقات عمل بيانات أسرع وأبسط وأكثر لامركزية.

في الواقع ، في غضون عام من فتح مصدر Airflow ، كتب Jeff Magnusson من StitchFix "لا ينبغي لمهندسي البيانات كتابة ETL" 5 ودعا إلى قطيعة جذرية مع الملكية المركزية لخطوط أنابيب البيانات: " "نحسن المنظمة من أجل الكفاءة ، نحن نحسن الاستقلالية."

الآن أصبح الضغط على اليسار في كل مكان: يجب على مستخدمي الأعمال تعلم التحليلات ، ويجب على المحللين ممارسة الهندسة ، ويجب على المهندسين تصميم الأنظمة الأساسية.

ومع ذلك ، لم يكن المقصود من Airflow أن يكون منصة غير متجانسة لـ DAGs اللامركزية. إنه محرك جدولة عمل ومعالجة: خذ عبء عمل فريق واحد وقم بتنسيقه وفقًا لجدول زمني ، على غرار نظام مترو الأنفاق. 6

إن وظيفة مهندسي البيانات اليوم أقرب إلى إدارة شبكة النقل بالكامل: قطارات الأنفاق بالطبع ، ولكن أيضًا الشوارع والحافلات وممرات الدراجات. عندما يسقط فريق النمو 1000 دراجة بخارية في الشوارع بين عشية وضحاها ، يجب على مهندسي البيانات التأكد من أنها لا تسبب حوادث أو وفيات. إنها الوظيفة الجديدة.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow