زاحفات الويب في لغة البايثون (scrapy)

1


اليوم سنتكلم عن زاحفات الويب (Web Scrapers) في لغة البايثون ، وسنتناول تحديدا مكتبة Scappy لأنها واحدة من أقوى المكتبات في هذا المجال والأفضل .

سكرابي Scrapy هو اطار عمل مبني بالبايثون ثم انشائه لأغراض الزحف واستخراج البيانات من مواقع الأنترنت وتخزينها على شكل بيانات منظمة (جداول ، قواعد بيانات .. ) لاِعادة استخدامها كمصادر أو Datasets لبرامجك أو مواقعك أو حتى استعمالها كبيانات تدريب لخوارزميات الذكاء الصنعي أو عمل دراسات تحليلية ..


لماذا يعتبر Scrapy الأفضل :

1 - يجمع بين السهولة والمجانية .. وقوة الأداء .

2 - مبني لاستخلاص البيانات من HTML/XML عن طريق مسارات XPath والمحددات CSS selectors كما يدعم التعابير القياسية Regex .

3 - يأتي مع دعم أساسي لتصدير البيانات على هيئة (JSON, CSV, XML) على وسائط التخزين المختلفة (FTP, S3, local filesystem) .

4 - يغطي الترميزات encoding المختلفة للنصوص ، مما يعطيه بيئة جيدة للتعامل مع الحروف العربية وغيرها من اللغات .

5 - مهيء للتعامل مع الجلسات والكوكيز وخصائص Https المتقدمة (compression, authentication, caching).

6 - يأتي مع واجهة تيلنت telnet ممتازة لكشف الأخطاء وDebuging.


 والكثير من الميزات الأخرى كتحميل الوسائط وغيرها من الميزات التي ستكتشفها عن طريق تثبيت المكتبة من موقعها الرسمي :
https://scrapy.org
 



أو عبر سطر الأوامر:
pip install scrapy

التعليقات