أصدرت ياهو طن من بيانات المستخدم مجهولة الهوية لمساعدة العلماء في تعلم الآلة
تعلم الآلة، بدأ يترسخ في جميع أنواع التطبيقات، من السيارات ذاتية القيادة إلى التعرف على الصور لمحركات توصية على الانترنت. ولكن ما لم كنت جوجل أو الفيسبوك، فإنه من الصعب الحصول على يديك على هذا النوع من مجموعات البيانات الضخمة، العالم الحقيقي اللازمة لاختبار والتحقق من صحة برامج تعلم الآلة.
وقد ساعد Yahoo إلى تصحيح هذا مع اطلاق الخميس ما وصفته "أكبر من أي وقت مضى" مجموعة البيانات المتاحة للعلماء تعلم آلة. انها مجموعة من تفاعلات المستخدم مجهولة المصدر مع الأخبار ستندفع على مواقع مثل ياهو نيوز وياهو الرياضة.
وتقول ياهو هناك 110 مليارات الأحداث في ملف - أو 110 مليارات سجلات عندما ينقر المستخدم على خبر أو استغرق بعض الإجراءات الأخرى في تغذية - وتضم 13.5TB من البيانات، أو 1.5TB مضغوط. وهذا أكثر من عشرة أضعاف حجم السابق بيانات أكبر المفرج عنهم، وتقول ياهو.
ياهو
وتأتي هذه البيانات من التفاعل مع تغذية الأخبار، فقد أصبحت منطقة باللون الأحمر فوق
"البيانات هي شريان الحياة للبحث في التعلم الآلي" وقالت الشركة. "ومع ذلك، والوصول إلى قواعد البيانات حقا على نطاق واسع هو الامتياز الذي تم حجز تقليديا لآلة الباحثين والعلماء البيانات تعلم العمل في الشركات الكبرى - وبعيدا عن متناول معظم الباحثين الأكاديميين".
يشير تعلم آلة لفئة من البرامج التي "تعلم" وتحسين قدرتهم على حل المشاكل مع مرور الوقت. كان مثالا مبكرا الكشف عن البريد المزعج، ولكن يتم استخدام آلة التعلم عن التعرف على الصور، الترجمة و عدد لا يحصى من المهام الأخرى ، بما في ذلك بعض لرجال الأعمال. وقالت جوجل مؤخرا أنها " إعادة التفكير في كل شيء نقوم به" حول تعلم الآلة.
علماء الكمبيوتر خلق نماذج وكتابة خوارزميات لتوجيه أنظمة التعلم الآلي، ولكنها تحتاج مجموعات كبيرة من البيانات التي لاختبار تلك النماذج وتحسينها.
وقال SUJU راجان، مدير ياهو البحوث للعلوم التخصيص يمكنهم استخدام الاصطناعية، ومجموعات البيانات التي تم إنشاؤها بشكل مصطنع، ولكن هذه لا تعكس الفوضى والسلوك غير متوقعة أن البشر المعرض على الانترنت.
"والبيانات في العالم الحقيقي هو فوضوي، ويعرض الكثير من التحديات، وهذه التحديات لا يعتقد بالضرورة عندما يقوم شخص ما يخلق مجموعة البيانات الاصطناعي"، قالت. "إذا كنت لا تأخذ سلوكي في الاعتبار، خوارزمية تقوم بإنشاء قد لا تعمل بشكل جيد."
وتتوقع العلماء لاستخدام البيانات للمساعدة في بناء محركات توصية أفضل، مثل تلك التي على Netflix و الأمازون. لكنها تقول انها يمكن أيضا أن تدفع المجالات البحثية الأخرى، مثل استرجاع المعلومات، وترتيب تغذية الاجتماعي، والهندسة حتى النظم، من خلال مساعدة مقدمي سحابة يقرر كيفية معالجة البيانات وتفاعل المستخدمين معها.
وكان من المقرر أن تكون متاحة للتحميل الخميس من خلال ياهو مختبرات 'بيانات المستخدم Webscopeبرنامج تبادل البيانات، ومكتبة من مجموعات البيانات مجهولة المصدر للاستخدام غير التجاري.
أنها تقوم على تفاعلات المستخدم مع ياهو الأخبار، الرياضة، المالية، أفلام، والعقارات. وقد تم جمع البيانات أكثر من أربعة أشهر مطلع العام الماضي من 20 مليون لمستخدمي ياهو. بالإضافة إلى بيانات التفاعل، ويتضمن معلومات ديموغرافية تصنيفها، مثل الفئة العمرية والجنس، لمجموعة فرعية من المستخدمين. انها ايضا الافراج العنوان، ملخص، وعبارات رئيسية من المواد الإخبارية ذات الصلة.
ياهو تقول مجموعة البيانات السابقة أكبر، صدر في العام الماضي من قبل شركة التسويق عبر الإنترنت Criteo، كان 1TB من حيث الحجم وشملت نحو 4 مليارات الأحداث.
وتقول هدفها هو مستوى الملعب قليلا للباحثين الأكاديميين، الذين غالبا ما يكون أكثر حرية لمتابعة مشاريع طويلة المدى من أقرانهم في الشركات، ولكن الذين يفتقرون إلى البيانات العالم الحقيقي للقيام بذلك مع.
واضاف "انهم قد تكون قادرة على حل المشاكل بطريقة نتمكن من الاستفادة من في ياهو، أو الخروج مع مشاكل بحثية جديدة أن ليس لدينا حتى فكرت في بعد"، قال راجان.
هل أعجبك الموضوع ؟

ليست هناك تعليقات:
إرسال تعليق