Merriam-Webster ومعالجة البيانات غير المهيكلة

2022-09-18

انتهيت مؤخرًا من قراءة Word for Word: The Secret Life of Dictionaries بواسطة Kory Stamper ، والتي كانت أداة تقليب صفحات غير متوقعة. أكثر ما أثار اهتمامي (ربما ليس من المستغرب) هو وصف Stamper لكيفية كتابة Merriam-Webster ، وما هو التشابه المذهل لهذه العملية مع العديد من مشاريع البيانات غير المنظمة الناجحة في البرية ، وأريد استخدام منشور المدونة هذا للتأمل في ذلك.

أولاً ، يبدأ بجمع البيانات الأولية غير المنظمة وتنظيمها. يصف Stamper عملية رائعة تسمى "القراءة ووضع العلامات" ، حيث يتم تكليف المحررين بقراءة المجلات والدوريات والمدونات الحالية - تقريبًا أي شيء مكتوب باللغة الإنجليزية ، كما يبدو. هو - وقراءة جميع الكلمات ووضع خط تحتها التي تلفت انتباههم. العين: كلمات أو كلمات جديدة تُستخدم بطرق جديدة. (هذه ، على عكس الانطباعات الأولى ، مهمة غير تافهة تتطلب تدريبًا: القراء والمصححون الجيدون سوف يلتقطون الاتجاه الحديث لـ "الملل من" ، بدلاً من الاتجاه التاريخي "الملل من" الحالي - هذا لا يعني أن الملل يأخذ معنى جديدًا ، بل يعني أن من هي & mldr ؛ والتي ، كما يمكنك أن تتخيل ، قد إثارة مؤلفي المعاجم.)

يصف Stamper أيضًا استخدام المجموعات ، والتي هي أساسًا مجموعات بيانات منظمة كبيرة للغة الإنجليزية مستخدمة في البرية - مجموعة بيانات من التغريدات ، على سبيل المثال ، أو نصوص البرامج التلفزيونية الشهيرة.

نظرًا لأن البيانات تصبح سلعية أكثر فأكثر ، ستتمتع مشروعات البيانات بشكل متزايد برفاهية البدء بالبيانات المنظمة (أو على الأقل استكمال بياناتها الأولية غير المنظمة ببيانات منظمة).

ثانيًا ، الهيكلة الفعلية للبيانات. إنه ينطوي على جيش صغير من المحررين يقسمون القاموس بأكمله فيما بينهم ويعرفون (أو ينقحون التعاريف) كل كلمة يدويًا. في الممارسة العملية ، هذا يعني فتح قاعدة بيانات الكلمات المقروءة والمميزة (وربما المجموعة المنظمة أيضًا) ، ومعرفة ما إذا كان التعريف الحالي يحتاج إلى المراجعة لاستيعاب المعاني أو الاستخدامات الجديدة للكلمة ، وربما كتابة أو إعادة كتابة تعريف للكلمة. الكلمات الجديدة & mldr؛ كل ذلك في غضون 15 دقيقة تقريبًا للكلمة ، في المتوسط.

يبدو أن هذه هي الخطوة الأكثر صعوبة في "خط أنابيب بيانات Merriam-Webster" ، ولكنها أيضًا الخطوة التي تضيف أكبر قيمة. لا يوجد سبب للاعتقاد بأن هذه المرحلة (أو أي من هذه المراحل الثلاث ، حقًا!) يجب أن تكون متطورة من الناحية التكنولوجية - لا يزال صانع القاموس يستخدم بطاقات الفهرسة والمجلدات اليوم. المنتجات المربحة المدعومة بكميات كبيرة من العمالة اليدوية ليست شيئًا جديدًا للأسف ، لكن الأمر يستحق التذكر. إن حقيقة عدم وجود علاقة بين قيمة المنتج والتطور التكنولوجي أمر غير صحيح: فأنت لا تستخرج المزيد من القيمة من بياناتك عن طريق كتابة تعليمات برمجية أفضل أو تدريب نماذج تعلُّم آلي أفضل.

أخيرًا ، تأتي أي ميزات أو مجموعات بيانات مساعدة تقدمها Merriam-Webster بالإضافة إلى بياناتها الحالية (المعروفة أيضًا باسم القاموس) ، وذلك ببساطة لأنها في أفضل وضع لتقديمها. فكر في أشياء مثل أصل الكلمة ونطقها وتواريخها.

قد يبدو من المضحك أن القيمة الحقيقية لمجموعة البيانات للمستخدمين (أو ، إذا كنت تفضل ، "ملاءمة المنتج للسوق" لمجموعة البيانات) قد تأتي من إحدى مجموعات البيانات أو الميزات الفرعية هذه ، بدلاً من " شيء". ومع ذلك ، فمن المنطقي: تمامًا كما تقوم الشركات بتوجيه منتجاتها ونماذج أعمالها لتبقى ملائمة ، كذلك يمكن لمجموعات البيانات غير المنظمة ؛ بعد كل شيء ، ليس من المبالغة اعتبار مجموعات البيانات غير المهيكلة منتجات في حد ذاتها.

إذن لدينا هنا وصفة لمشروع بيانات ناجح: جمع وتخزين البيانات الخام وغير المهيكلة ، هيكلها (من الناحية المثالية أيضًا إضافة بعض القيمة إلى البيانات في العملية ، ولكن هيكلة البيانات ذات قيمة كافية) ، و اعرض مجموعات البيانات الفرعية التي أنت في وضع أفضل لتقديمها

ما هي مشاريع البيانات الأخرى التي اتبعت هذه الوصفة؟

بحث Google: قام Google بالزحف إلى الإنترنت ويواصل القيام بذلك بشكل مستمر ؛ لقد اخترعوا نظام PageRank وخوارزميات طرق أخرى لجعل البحث ممكنًا (أفترض شكل ضعيف من "الهيكلة") على الإنترنت ؛ وأسئلة وأجوبة ودورات العرض هي أمثلة جيدة على الميزات الإضافية بالإضافة إلى عروضها الأساسية.

cryptics.georgeho.org: my

Merriam-Webster ومعالجة البيانات غير المهيكلة

2022-09-18

انتهيت مؤخرًا من قراءة Word for Word: The Secret Life of Dictionaries بواسطة Kory Stamper ، والتي كانت أداة تقليب صفحات غير متوقعة. أكثر ما أثار اهتمامي (ربما ليس من المستغرب) هو وصف Stamper لكيفية كتابة Merriam-Webster ، وما هو التشابه المذهل لهذه العملية مع العديد من مشاريع البيانات غير المنظمة الناجحة في البرية ، وأريد استخدام منشور المدونة هذا للتأمل في ذلك.

أولاً ، يبدأ بجمع البيانات الأولية غير المنظمة وتنظيمها. يصف Stamper عملية رائعة تسمى "القراءة ووضع العلامات" ، حيث يتم تكليف المحررين بقراءة المجلات والدوريات والمدونات الحالية - تقريبًا أي شيء مكتوب باللغة الإنجليزية ، كما يبدو. هو - وقراءة جميع الكلمات ووضع خط تحتها التي تلفت انتباههم. العين: كلمات أو كلمات جديدة تُستخدم بطرق جديدة. (هذه ، على عكس الانطباعات الأولى ، مهمة غير تافهة تتطلب تدريبًا: القراء والمصححون الجيدون سوف يلتقطون الاتجاه الحديث لـ "الملل من" ، بدلاً من الاتجاه التاريخي "الملل من" الحالي - هذا لا يعني أن الملل يأخذ معنى جديدًا ، بل يعني أن من هي & mldr ؛ والتي ، كما يمكنك أن تتخيل ، قد إثارة مؤلفي المعاجم.)

يصف Stamper أيضًا استخدام المجموعات ، والتي هي أساسًا مجموعات بيانات منظمة كبيرة للغة الإنجليزية مستخدمة في البرية - مجموعة بيانات من التغريدات ، على سبيل المثال ، أو نصوص البرامج التلفزيونية الشهيرة.

نظرًا لأن البيانات تصبح سلعية أكثر فأكثر ، ستتمتع مشروعات البيانات بشكل متزايد برفاهية البدء بالبيانات المنظمة (أو على الأقل استكمال بياناتها الأولية غير المنظمة ببيانات منظمة).

ثانيًا ، الهيكلة الفعلية للبيانات. إنه ينطوي على جيش صغير من المحررين يقسمون القاموس بأكمله فيما بينهم ويعرفون (أو ينقحون التعاريف) كل كلمة يدويًا. في الممارسة العملية ، هذا يعني فتح قاعدة بيانات الكلمات المقروءة والمميزة (وربما المجموعة المنظمة أيضًا) ، ومعرفة ما إذا كان التعريف الحالي يحتاج إلى المراجعة لاستيعاب المعاني أو الاستخدامات الجديدة للكلمة ، وربما كتابة أو إعادة كتابة تعريف للكلمة. الكلمات الجديدة & mldr؛ كل ذلك في غضون 15 دقيقة تقريبًا للكلمة ، في المتوسط.

يبدو أن هذه هي الخطوة الأكثر صعوبة في "خط أنابيب بيانات Merriam-Webster" ، ولكنها أيضًا الخطوة التي تضيف أكبر قيمة. لا يوجد سبب للاعتقاد بأن هذه المرحلة (أو أي من هذه المراحل الثلاث ، حقًا!) يجب أن تكون متطورة من الناحية التكنولوجية - لا يزال صانع القاموس يستخدم بطاقات الفهرسة والمجلدات اليوم. المنتجات المربحة المدعومة بكميات كبيرة من العمالة اليدوية ليست شيئًا جديدًا للأسف ، لكن الأمر يستحق التذكر. إن حقيقة عدم وجود علاقة بين قيمة المنتج والتطور التكنولوجي أمر غير صحيح: فأنت لا تستخرج المزيد من القيمة من بياناتك عن طريق كتابة تعليمات برمجية أفضل أو تدريب نماذج تعلُّم آلي أفضل.

أخيرًا ، تأتي أي ميزات أو مجموعات بيانات مساعدة تقدمها Merriam-Webster بالإضافة إلى بياناتها الحالية (المعروفة أيضًا باسم القاموس) ، وذلك ببساطة لأنها في أفضل وضع لتقديمها. فكر في أشياء مثل أصل الكلمة ونطقها وتواريخها.

قد يبدو من المضحك أن القيمة الحقيقية لمجموعة البيانات للمستخدمين (أو ، إذا كنت تفضل ، "ملاءمة المنتج للسوق" لمجموعة البيانات) قد تأتي من إحدى مجموعات البيانات أو الميزات الفرعية هذه ، بدلاً من " شيء". ومع ذلك ، فمن المنطقي: تمامًا كما تقوم الشركات بتوجيه منتجاتها ونماذج أعمالها لتبقى ملائمة ، كذلك يمكن لمجموعات البيانات غير المنظمة ؛ بعد كل شيء ، ليس من المبالغة اعتبار مجموعات البيانات غير المهيكلة منتجات في حد ذاتها.

إذن لدينا هنا وصفة لمشروع بيانات ناجح: جمع وتخزين البيانات الخام وغير المهيكلة ، هيكلها (من الناحية المثالية أيضًا إضافة بعض القيمة إلى البيانات في العملية ، ولكن هيكلة البيانات ذات قيمة كافية) ، و اعرض مجموعات البيانات الفرعية التي أنت في وضع أفضل لتقديمها

ما هي مشاريع البيانات الأخرى التي اتبعت هذه الوصفة؟

بحث Google: قام Google بالزحف إلى الإنترنت ويواصل القيام بذلك بشكل مستمر ؛ لقد اخترعوا نظام PageRank وخوارزميات طرق أخرى لجعل البحث ممكنًا (أفترض شكل ضعيف من "الهيكلة") على الإنترنت ؛ وأسئلة وأجوبة ودورات العرض هي أمثلة جيدة على الميزات الإضافية بالإضافة إلى عروضها الأساسية.

cryptics.georgeho.org: my

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow