Merriam-Webster ومعالجة البيانات غير المهيكلة
2022-09-18
انتهيت مؤخرًا من قراءة Word for Word: The Secret Life of Dictionaries بواسطة Kory Stamper ، والتي كانت أداة تقليب صفحات غير متوقعة. أكثر ما أثار اهتمامي (ربما ليس من المستغرب) هو وصف Stamper لكيفية كتابة Merriam-Webster ، وما هو التشابه المذهل لهذه العملية مع العديد من مشاريع البيانات غير المنظمة الناجحة في البرية ، وأريد استخدام منشور المدونة هذا للتأمل في ذلك.
أولاً ، يبدأ بجمع البيانات الأولية غير المنظمة وتنظيمها. يصف Stamper عملية رائعة تسمى "القراءة ووضع العلامات" em> ، حيث يتم تكليف المحررين بقراءة المجلات والدوريات والمدونات الحالية - تقريبًا أي شيء مكتوب باللغة الإنجليزية ، كما يبدو. هو - وقراءة جميع الكلمات ووضع خط تحتها التي تلفت انتباههم. العين: كلمات أو كلمات جديدة تُستخدم بطرق جديدة. (هذه ، على عكس الانطباعات الأولى ، مهمة غير تافهة تتطلب تدريبًا: القراء والمصححون الجيدون سوف يلتقطون الاتجاه الحديث لـ "الملل من" em> ، بدلاً من الاتجاه التاريخي "الملل من" em> الحالي - هذا لا يعني أن الملل em> يأخذ معنى جديدًا ، بل يعني أن من em> هي & mldr ؛ والتي ، كما يمكنك أن تتخيل ، قد إثارة مؤلفي المعاجم.) p>
يصف Stamper أيضًا استخدام المجموعات ، والتي هي أساسًا مجموعات بيانات منظمة كبيرة للغة الإنجليزية مستخدمة في البرية - مجموعة بيانات من التغريدات ، على سبيل المثال ، أو نصوص البرامج التلفزيونية الشهيرة. p>
نظرًا لأن البيانات تصبح سلعية أكثر فأكثر ، ستتمتع مشروعات البيانات بشكل متزايد برفاهية البدء بالبيانات المنظمة (أو على الأقل استكمال بياناتها الأولية غير المنظمة ببيانات منظمة). p>
ثانيًا ، الهيكلة الفعلية للبيانات. إنه ينطوي على جيش صغير من المحررين يقسمون القاموس بأكمله فيما بينهم ويعرفون (أو ينقحون التعاريف) كل كلمة يدويًا. في الممارسة العملية ، هذا يعني فتح قاعدة بيانات الكلمات المقروءة والمميزة (وربما المجموعة المنظمة أيضًا) ، ومعرفة ما إذا كان التعريف الحالي يحتاج إلى المراجعة لاستيعاب المعاني أو الاستخدامات الجديدة للكلمة ، وربما كتابة أو إعادة كتابة تعريف للكلمة. الكلمات الجديدة & mldr؛ كل ذلك في غضون 15 دقيقة تقريبًا للكلمة ، في المتوسط. p>
يبدو أن هذه هي الخطوة الأكثر صعوبة في "خط أنابيب بيانات Merriam-Webster" ، ولكنها أيضًا الخطوة التي تضيف أكبر قيمة. لا يوجد سبب للاعتقاد بأن هذه المرحلة (أو أي من هذه المراحل الثلاث ، حقًا!) يجب أن تكون متطورة من الناحية التكنولوجية - لا يزال صانع القاموس يستخدم بطاقات الفهرسة والمجلدات اليوم. المنتجات المربحة المدعومة بكميات كبيرة من العمالة اليدوية ليست شيئًا جديدًا للأسف ، لكن الأمر يستحق التذكر. إن حقيقة عدم وجود علاقة بين قيمة المنتج والتطور التكنولوجي أمر غير صحيح: فأنت لا تستخرج المزيد من القيمة من بياناتك عن طريق كتابة تعليمات برمجية أفضل أو تدريب نماذج تعلُّم آلي أفضل. p>
أخيرًا ، تأتي أي ميزات أو مجموعات بيانات مساعدة تقدمها Merriam-Webster بالإضافة إلى بياناتها الحالية (المعروفة أيضًا باسم القاموس) ، وذلك ببساطة لأنها في أفضل وضع لتقديمها. فكر في أشياء مثل أصل الكلمة ونطقها وتواريخها. p>
قد يبدو من المضحك أن القيمة الحقيقية لمجموعة البيانات للمستخدمين (أو ، إذا كنت تفضل ، "ملاءمة المنتج للسوق" لمجموعة البيانات) قد تأتي من إحدى مجموعات البيانات أو الميزات الفرعية هذه ، بدلاً من " شيء". ومع ذلك ، فمن المنطقي: تمامًا كما تقوم الشركات بتوجيه منتجاتها ونماذج أعمالها لتبقى ملائمة ، كذلك يمكن لمجموعات البيانات غير المنظمة ؛ بعد كل شيء ، ليس من المبالغة اعتبار مجموعات البيانات غير المهيكلة منتجات في حد ذاتها. p>
إذن لدينا هنا وصفة لمشروع بيانات ناجح: p>
جمع وتخزين البيانات الخام وغير المهيكلة ،
هيكلها (من الناحية المثالية أيضًا إضافة بعض القيمة إلى البيانات في العملية ، ولكن هيكلة البيانات ذات قيمة كافية) ، و
اعرض مجموعات البيانات الفرعية التي أنت في وضع أفضل لتقديمها
ما هي مشاريع البيانات الأخرى التي اتبعت هذه الوصفة؟ p>
بحث Google: قام Google بالزحف إلى الإنترنت ويواصل القيام بذلك بشكل مستمر ؛ لقد اخترعوا نظام PageRank وخوارزميات طرق أخرى لجعل البحث ممكنًا (أفترض شكل ضعيف من "الهيكلة") على الإنترنت ؛ وأسئلة وأجوبة ودورات العرض هي أمثلة جيدة على الميزات الإضافية بالإضافة إلى عروضها الأساسية. p>
cryptics.georgeho.org: my
![Merriam-Webster ومعالجة البيانات غير المهيكلة](https://www.georgeho.org/assets/images/asterism.png)
2022-09-18
انتهيت مؤخرًا من قراءة Word for Word: The Secret Life of Dictionaries بواسطة Kory Stamper ، والتي كانت أداة تقليب صفحات غير متوقعة. أكثر ما أثار اهتمامي (ربما ليس من المستغرب) هو وصف Stamper لكيفية كتابة Merriam-Webster ، وما هو التشابه المذهل لهذه العملية مع العديد من مشاريع البيانات غير المنظمة الناجحة في البرية ، وأريد استخدام منشور المدونة هذا للتأمل في ذلك.
أولاً ، يبدأ بجمع البيانات الأولية غير المنظمة وتنظيمها. يصف Stamper عملية رائعة تسمى "القراءة ووضع العلامات" em> ، حيث يتم تكليف المحررين بقراءة المجلات والدوريات والمدونات الحالية - تقريبًا أي شيء مكتوب باللغة الإنجليزية ، كما يبدو. هو - وقراءة جميع الكلمات ووضع خط تحتها التي تلفت انتباههم. العين: كلمات أو كلمات جديدة تُستخدم بطرق جديدة. (هذه ، على عكس الانطباعات الأولى ، مهمة غير تافهة تتطلب تدريبًا: القراء والمصححون الجيدون سوف يلتقطون الاتجاه الحديث لـ "الملل من" em> ، بدلاً من الاتجاه التاريخي "الملل من" em> الحالي - هذا لا يعني أن الملل em> يأخذ معنى جديدًا ، بل يعني أن من em> هي & mldr ؛ والتي ، كما يمكنك أن تتخيل ، قد إثارة مؤلفي المعاجم.) p>
يصف Stamper أيضًا استخدام المجموعات ، والتي هي أساسًا مجموعات بيانات منظمة كبيرة للغة الإنجليزية مستخدمة في البرية - مجموعة بيانات من التغريدات ، على سبيل المثال ، أو نصوص البرامج التلفزيونية الشهيرة. p>
نظرًا لأن البيانات تصبح سلعية أكثر فأكثر ، ستتمتع مشروعات البيانات بشكل متزايد برفاهية البدء بالبيانات المنظمة (أو على الأقل استكمال بياناتها الأولية غير المنظمة ببيانات منظمة). p>
ثانيًا ، الهيكلة الفعلية للبيانات. إنه ينطوي على جيش صغير من المحررين يقسمون القاموس بأكمله فيما بينهم ويعرفون (أو ينقحون التعاريف) كل كلمة يدويًا. في الممارسة العملية ، هذا يعني فتح قاعدة بيانات الكلمات المقروءة والمميزة (وربما المجموعة المنظمة أيضًا) ، ومعرفة ما إذا كان التعريف الحالي يحتاج إلى المراجعة لاستيعاب المعاني أو الاستخدامات الجديدة للكلمة ، وربما كتابة أو إعادة كتابة تعريف للكلمة. الكلمات الجديدة & mldr؛ كل ذلك في غضون 15 دقيقة تقريبًا للكلمة ، في المتوسط. p>
يبدو أن هذه هي الخطوة الأكثر صعوبة في "خط أنابيب بيانات Merriam-Webster" ، ولكنها أيضًا الخطوة التي تضيف أكبر قيمة. لا يوجد سبب للاعتقاد بأن هذه المرحلة (أو أي من هذه المراحل الثلاث ، حقًا!) يجب أن تكون متطورة من الناحية التكنولوجية - لا يزال صانع القاموس يستخدم بطاقات الفهرسة والمجلدات اليوم. المنتجات المربحة المدعومة بكميات كبيرة من العمالة اليدوية ليست شيئًا جديدًا للأسف ، لكن الأمر يستحق التذكر. إن حقيقة عدم وجود علاقة بين قيمة المنتج والتطور التكنولوجي أمر غير صحيح: فأنت لا تستخرج المزيد من القيمة من بياناتك عن طريق كتابة تعليمات برمجية أفضل أو تدريب نماذج تعلُّم آلي أفضل. p>
أخيرًا ، تأتي أي ميزات أو مجموعات بيانات مساعدة تقدمها Merriam-Webster بالإضافة إلى بياناتها الحالية (المعروفة أيضًا باسم القاموس) ، وذلك ببساطة لأنها في أفضل وضع لتقديمها. فكر في أشياء مثل أصل الكلمة ونطقها وتواريخها. p>
قد يبدو من المضحك أن القيمة الحقيقية لمجموعة البيانات للمستخدمين (أو ، إذا كنت تفضل ، "ملاءمة المنتج للسوق" لمجموعة البيانات) قد تأتي من إحدى مجموعات البيانات أو الميزات الفرعية هذه ، بدلاً من " شيء". ومع ذلك ، فمن المنطقي: تمامًا كما تقوم الشركات بتوجيه منتجاتها ونماذج أعمالها لتبقى ملائمة ، كذلك يمكن لمجموعات البيانات غير المنظمة ؛ بعد كل شيء ، ليس من المبالغة اعتبار مجموعات البيانات غير المهيكلة منتجات في حد ذاتها. p>
إذن لدينا هنا وصفة لمشروع بيانات ناجح: p>
جمع وتخزين البيانات الخام وغير المهيكلة ،
هيكلها (من الناحية المثالية أيضًا إضافة بعض القيمة إلى البيانات في العملية ، ولكن هيكلة البيانات ذات قيمة كافية) ، و
اعرض مجموعات البيانات الفرعية التي أنت في وضع أفضل لتقديمها
ما هي مشاريع البيانات الأخرى التي اتبعت هذه الوصفة؟ p>
بحث Google: قام Google بالزحف إلى الإنترنت ويواصل القيام بذلك بشكل مستمر ؛ لقد اخترعوا نظام PageRank وخوارزميات طرق أخرى لجعل البحث ممكنًا (أفترض شكل ضعيف من "الهيكلة") على الإنترنت ؛ وأسئلة وأجوبة ودورات العرض هي أمثلة جيدة على الميزات الإضافية بالإضافة إلى عروضها الأساسية. p>
cryptics.georgeho.org: my
What's Your Reaction?
![like](https://vidianews.com/assets/img/reactions/like.png)
![dislike](https://vidianews.com/assets/img/reactions/dislike.png)
![love](https://vidianews.com/assets/img/reactions/love.png)
![funny](https://vidianews.com/assets/img/reactions/funny.png)
![angry](https://vidianews.com/assets/img/reactions/angry.png)
![sad](https://vidianews.com/assets/img/reactions/sad.png)
![wow](https://vidianews.com/assets/img/reactions/wow.png)