مشكلة تدفق الهواء
في عام 2022 ، يدير مهندسو البيانات الغابات وليس الأشجار
لقد كتبت مشاركة مدونة كاملة في محاولة لمعرفة لماذا em> لا أحب Airflow. ولكن على الرغم من تبريراتي ، فقد شعرت وكأنها رسالة تفكك - شخصية للغاية: p>
عزيزي تدفق الهواء ، em> حاولت أن أجعلها تعمل ، لقد نجحت حقًا. لكنك كبير في السن ، وتجريداتك خرقاء وأعتقد أنك قبيح. انتهى الأمر بيننا. em> تحياتي ، em> ستيفن em> والذي كان من الممكن أن يكون رائعًا ، إلا أنني كنت أعرف بالضبط كيف سيكون رد فعل Airflow: ستيف - آسف ، لقد استغرق الأمر وقتًا طويلاً للرد ، لقد تم تثبيتي حوالي 10000 مرة في اليوم. لا توجد مشكلة إعادة: المشاعر ، LMK إذا غيرت رأيك. -A الحقيقة هي أن Airflow هي قصة نجاح: مشروع مفتوح المصدر اخترق نفسية البيانات بدرجة مزعجة. إنه يفعل ما يقول إنه يفعله ، وهو أكثر مما يمكن أن تدعيه معظم الأدوات. تستخدمه الفرق بمقياس 1 وفي عام 20222. أعني ، هناك بناء الجملة هذا >> [مسيء ، فاحش] >> بيثون >> ... لكن أي مشروع يجب أن يكون محظوظًا لأنه مكروه للغاية ، إذا كان مملًا ، فلا مفر منه. p>
إذًا لماذا em> لا يمكنني تحمل ذلك؟ p>
ثم أدركت: مشكلتي ليست مع تدفق الهواء. إنها مشكلة تدفق الهواء. p>
نشكرك على قراءة بيانات People Etc. ! اشترك مجانًا لتلقي مشاركات جديدة ودعم عملي. p>
من الذي ينظم المنسق؟
فيما يلي إحدى الجمل الأولى من ملف README3 الخاص بـ Airflow: يعمل تدفق الهواء بشكل أفضل مع تدفقات العمل التي تكون في الغالب ثابتة وتتغير ببطء. p>
لقد كان تصميمًا رائعًا في عام 2015 عندما كان Airflow مفتوح المصدر. هذا لا يزال em> جيدًا بما يكفي لمعظم الفرق في عام 2022: تعبر DAGs البطيئة والكبيرة والمركزية عن معظم قيم البيانات الحالية ، حتى لو تم فصلها في أدوات SaaS أخرى. 4 ومع ذلك ، فإن وجهة نظري هي أن أكبر قيمة مستقبلية em> ستأتي من تمكين الفرق من إنشاء تدفقات عمل بيانات أسرع وأبسط وأكثر لامركزية. p>
في الواقع ، في غضون عام من فتح مصدر Airflow ، كتب Jeff Magnusson من StitchFix "لا ينبغي لمهندسي البيانات كتابة ETL" 5 ودعا إلى قطيعة جذرية مع الملكية المركزية لخطوط أنابيب البيانات: " "نحسن المنظمة من أجل الكفاءة ، نحن نحسن الاستقلالية." p>
الآن أصبح الضغط على اليسار في كل مكان: يجب على مستخدمي الأعمال تعلم التحليلات ، ويجب على المحللين ممارسة الهندسة ، ويجب على المهندسين تصميم الأنظمة الأساسية. p>
ومع ذلك ، لم يكن المقصود من Airflow أن يكون منصة غير متجانسة لـ DAGs اللامركزية. إنه محرك جدولة عمل ومعالجة: خذ عبء عمل فريق واحد وقم بتنسيقه وفقًا لجدول زمني ، على غرار نظام مترو الأنفاق. 6 إن وظيفة مهندسي البيانات اليوم أقرب إلى إدارة شبكة النقل بالكامل: قطارات الأنفاق بالطبع ، ولكن أيضًا الشوارع والحافلات وممرات الدراجات. عندما يسقط فريق النمو 1000 دراجة بخارية في الشوارع بين عشية وضحاها ، يجب على مهندسي البيانات التأكد من أنها لا تسبب حوادث أو وفيات. إنها em> الوظيفة الجديدة. p>
![مشكلة تدفق الهواء](https://substackcdn.com/image/fetch/w_1200,h_600,c_limit,f_jpg,q_auto:good,fl_progressive:steep/https%3A%2F%2Fbucketeer-e05bbc84-baa3-437e-9518-adb32be77984.s3.amazonaws.com%2Fpublic%2Fimages%2F4ed1e783-a7bc-49dc-be2c-19455d537b3c_2208x1242.png)
لقد كتبت مشاركة مدونة كاملة في محاولة لمعرفة لماذا em> لا أحب Airflow. ولكن على الرغم من تبريراتي ، فقد شعرت وكأنها رسالة تفكك - شخصية للغاية: p>
عزيزي تدفق الهواء ، em> حاولت أن أجعلها تعمل ، لقد نجحت حقًا. لكنك كبير في السن ، وتجريداتك خرقاء وأعتقد أنك قبيح. انتهى الأمر بيننا. em> تحياتي ، em> ستيفن em> والذي كان من الممكن أن يكون رائعًا ، إلا أنني كنت أعرف بالضبط كيف سيكون رد فعل Airflow: ستيف - آسف ، لقد استغرق الأمر وقتًا طويلاً للرد ، لقد تم تثبيتي حوالي 10000 مرة في اليوم. لا توجد مشكلة إعادة: المشاعر ، LMK إذا غيرت رأيك. -A الحقيقة هي أن Airflow هي قصة نجاح: مشروع مفتوح المصدر اخترق نفسية البيانات بدرجة مزعجة. إنه يفعل ما يقول إنه يفعله ، وهو أكثر مما يمكن أن تدعيه معظم الأدوات. تستخدمه الفرق بمقياس 1 وفي عام 20222. أعني ، هناك بناء الجملة هذا >> [مسيء ، فاحش] >> بيثون >> ... لكن أي مشروع يجب أن يكون محظوظًا لأنه مكروه للغاية ، إذا كان مملًا ، فلا مفر منه. p>
إذًا لماذا em> لا يمكنني تحمل ذلك؟ p>
ثم أدركت: مشكلتي ليست مع تدفق الهواء. إنها مشكلة تدفق الهواء. p>
نشكرك على قراءة بيانات People Etc. ! اشترك مجانًا لتلقي مشاركات جديدة ودعم عملي. p>
من الذي ينظم المنسق؟
فيما يلي إحدى الجمل الأولى من ملف README3 الخاص بـ Airflow: يعمل تدفق الهواء بشكل أفضل مع تدفقات العمل التي تكون في الغالب ثابتة وتتغير ببطء. p>
لقد كان تصميمًا رائعًا في عام 2015 عندما كان Airflow مفتوح المصدر. هذا لا يزال em> جيدًا بما يكفي لمعظم الفرق في عام 2022: تعبر DAGs البطيئة والكبيرة والمركزية عن معظم قيم البيانات الحالية ، حتى لو تم فصلها في أدوات SaaS أخرى. 4 ومع ذلك ، فإن وجهة نظري هي أن أكبر قيمة مستقبلية em> ستأتي من تمكين الفرق من إنشاء تدفقات عمل بيانات أسرع وأبسط وأكثر لامركزية. p>
في الواقع ، في غضون عام من فتح مصدر Airflow ، كتب Jeff Magnusson من StitchFix "لا ينبغي لمهندسي البيانات كتابة ETL" 5 ودعا إلى قطيعة جذرية مع الملكية المركزية لخطوط أنابيب البيانات: " "نحسن المنظمة من أجل الكفاءة ، نحن نحسن الاستقلالية." p>
الآن أصبح الضغط على اليسار في كل مكان: يجب على مستخدمي الأعمال تعلم التحليلات ، ويجب على المحللين ممارسة الهندسة ، ويجب على المهندسين تصميم الأنظمة الأساسية. p>
ومع ذلك ، لم يكن المقصود من Airflow أن يكون منصة غير متجانسة لـ DAGs اللامركزية. إنه محرك جدولة عمل ومعالجة: خذ عبء عمل فريق واحد وقم بتنسيقه وفقًا لجدول زمني ، على غرار نظام مترو الأنفاق. 6 إن وظيفة مهندسي البيانات اليوم أقرب إلى إدارة شبكة النقل بالكامل: قطارات الأنفاق بالطبع ، ولكن أيضًا الشوارع والحافلات وممرات الدراجات. عندما يسقط فريق النمو 1000 دراجة بخارية في الشوارع بين عشية وضحاها ، يجب على مهندسي البيانات التأكد من أنها لا تسبب حوادث أو وفيات. إنها em> الوظيفة الجديدة. p>
What's Your Reaction?
![like](https://vidianews.com/assets/img/reactions/like.png)
![dislike](https://vidianews.com/assets/img/reactions/dislike.png)
![love](https://vidianews.com/assets/img/reactions/love.png)
![funny](https://vidianews.com/assets/img/reactions/funny.png)
![angry](https://vidianews.com/assets/img/reactions/angry.png)
![sad](https://vidianews.com/assets/img/reactions/sad.png)
![wow](https://vidianews.com/assets/img/reactions/wow.png)