نشرت شركات التأمين الصحي للتو ما يقرب من تريليون أسعار المستشفيات

في الأول من تموز (يوليو) ، بدأت شركات التأمين في إلقاء كمية سخيفة من البيانات على الإنترنت. لا أحد يقدر حجمه.

لقد استعدت رؤوسًا من مئات الآلاف من الملفات من Humana و UnitedHealthcare و Aetna وغيرها. يزن إجمالي البيانات المضغوطة التي يقدمونها حوالي 100 تيرابايت. تمتد هذه البيانات ، غير المضغوطة ، إلى مجموعة من البيتابايتات ، وتقزم مكتبة الكونجرس ، وكتالوج LibGen ، ويكيبيديا الإنجليزية غير المضغوطة بالكامل وكتالوج HD Netflix بأكمله - مجتمعة.

insurance

ملاحظة: إذا كنت تميل إلى إعادة إنتاج هذا الجدول ، فيمكنك القيام بذلك بنفسك عن طريق تشغيل أدوات الكشط التي قدمتها في مستودع GitHub هذا. يمكنك استخدام هذا للحصول على أحجام الملفات التي تراها أعلاه ، وكذلك للحصول على عناوين URL لجميع الملفات إذا كنت تريد محاولة تنزيل بعضها. كل شيء له ثمن

في البيانات التي تم إصدارها مؤخرًا ، يحتوي كل "سعر متفاوض عليه" (أو ببساطة "سعر") على الكثير من البيانات الوصفية المرتبطة به ، ولكنها تتلخص في: من يدفع ، ومن الذي يتم الدفع له ، ولماذا يتم الدفع لهم ، بالإضافة إلى بعض الزغب الإضافي لتتبع الإصدار. تنتج مئات المليارات من الجوائز في مجموعة البيانات (ربما أكثر من تريليون) من جميع التوليفات الممكنة لهذه الأشياء. يمكن أن تحتوي الرموز على أنواع أو إصدارات مختلفة. قد تحتوي الأسعار على رموز خدمة. وهلم جرا.

ونظرًا لتغير الأسعار ، تصدر شركات التأمين إصدارات جديدة من ملفات سعة 100 تيرابايت كل شهر. رياضيات فيرمي

اعتقدت بسذاجة أن شركات التأمين ستنشر الأسعار التي تفاوضت عليها مع 6000 مستشفى في الولايات المتحدة. كنت مخطئا.

يعطيني حساب أسفل المغلف تقديرًا تقريبيًا لما يزيد عن 500 مليار سعر مختلف ، فقط عن طريق حساب عدد الأسعار في كل ملف ، وضربها في عدد الملفات. ولكن هذا فقط لحفنة من شركات التأمين التي كشطتها (وكنت ملتزمًا).

هذا لأن مقالب البيانات تتضمن الأسعار التي تم التفاوض عليها مع كل كيان تتعاقد معه شركات التأمين. من المستحيل معرفة عدد الملفات دون الانتقال مباشرة إلى الملفات "المتصلة بالشبكة" ، ولكن نظرة سريعة تشير إلى وجود الملايين.

أفرغت Humana ما يقرب من نصف مليون ملف CSV مضغوط يبلغ إجمالي حجمها 50 تيرابايت مضغوطة (~ 600 تيرابايت غير مضغوط). بسعر 70000 لكل ملف 9 ميجابايت ، وهذا يترجم إلى حوالي 400 مليار سعر فردي يتم التفاوض عليها مع بائعين مختلفين.

دافع آخرون متشابهون في سخائهم. على صفحة UnitedHealthcare ، يسردون أكثر من 55000 ملف فردي للتنزيل. يمثلان معًا 9 تيرابايت من JSON المضغوط ، أو ما يقرب من 250 تيرابايت غير مضغوط. بتقدير عدد الأسعار المتوفرة لكل جيجابايت من JSON المضغوط ، أقدر أنهم نشروا بمفردهم حوالي 100 مليار سعر. الكثير من الشيء الجيد

عارضت الصناعة نشر د ...

نشرت شركات التأمين الصحي للتو ما يقرب من تريليون أسعار المستشفيات

في الأول من تموز (يوليو) ، بدأت شركات التأمين في إلقاء كمية سخيفة من البيانات على الإنترنت. لا أحد يقدر حجمه.

لقد استعدت رؤوسًا من مئات الآلاف من الملفات من Humana و UnitedHealthcare و Aetna وغيرها. يزن إجمالي البيانات المضغوطة التي يقدمونها حوالي 100 تيرابايت. تمتد هذه البيانات ، غير المضغوطة ، إلى مجموعة من البيتابايتات ، وتقزم مكتبة الكونجرس ، وكتالوج LibGen ، ويكيبيديا الإنجليزية غير المضغوطة بالكامل وكتالوج HD Netflix بأكمله - مجتمعة.

insurance

ملاحظة: إذا كنت تميل إلى إعادة إنتاج هذا الجدول ، فيمكنك القيام بذلك بنفسك عن طريق تشغيل أدوات الكشط التي قدمتها في مستودع GitHub هذا. يمكنك استخدام هذا للحصول على أحجام الملفات التي تراها أعلاه ، وكذلك للحصول على عناوين URL لجميع الملفات إذا كنت تريد محاولة تنزيل بعضها. كل شيء له ثمن

في البيانات التي تم إصدارها مؤخرًا ، يحتوي كل "سعر متفاوض عليه" (أو ببساطة "سعر") على الكثير من البيانات الوصفية المرتبطة به ، ولكنها تتلخص في: من يدفع ، ومن الذي يتم الدفع له ، ولماذا يتم الدفع لهم ، بالإضافة إلى بعض الزغب الإضافي لتتبع الإصدار. تنتج مئات المليارات من الجوائز في مجموعة البيانات (ربما أكثر من تريليون) من جميع التوليفات الممكنة لهذه الأشياء. يمكن أن تحتوي الرموز على أنواع أو إصدارات مختلفة. قد تحتوي الأسعار على رموز خدمة. وهلم جرا.

ونظرًا لتغير الأسعار ، تصدر شركات التأمين إصدارات جديدة من ملفات سعة 100 تيرابايت كل شهر. رياضيات فيرمي

اعتقدت بسذاجة أن شركات التأمين ستنشر الأسعار التي تفاوضت عليها مع 6000 مستشفى في الولايات المتحدة. كنت مخطئا.

يعطيني حساب أسفل المغلف تقديرًا تقريبيًا لما يزيد عن 500 مليار سعر مختلف ، فقط عن طريق حساب عدد الأسعار في كل ملف ، وضربها في عدد الملفات. ولكن هذا فقط لحفنة من شركات التأمين التي كشطتها (وكنت ملتزمًا).

هذا لأن مقالب البيانات تتضمن الأسعار التي تم التفاوض عليها مع كل كيان تتعاقد معه شركات التأمين. من المستحيل معرفة عدد الملفات دون الانتقال مباشرة إلى الملفات "المتصلة بالشبكة" ، ولكن نظرة سريعة تشير إلى وجود الملايين.

أفرغت Humana ما يقرب من نصف مليون ملف CSV مضغوط يبلغ إجمالي حجمها 50 تيرابايت مضغوطة (~ 600 تيرابايت غير مضغوط). بسعر 70000 لكل ملف 9 ميجابايت ، وهذا يترجم إلى حوالي 400 مليار سعر فردي يتم التفاوض عليها مع بائعين مختلفين.

دافع آخرون متشابهون في سخائهم. على صفحة UnitedHealthcare ، يسردون أكثر من 55000 ملف فردي للتنزيل. يمثلان معًا 9 تيرابايت من JSON المضغوط ، أو ما يقرب من 250 تيرابايت غير مضغوط. بتقدير عدد الأسعار المتوفرة لكل جيجابايت من JSON المضغوط ، أقدر أنهم نشروا بمفردهم حوالي 100 مليار سعر. الكثير من الشيء الجيد

عارضت الصناعة نشر د ...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow