सेमल्ट एक्सपर्ट: अजगर और ब्यूटीफुल। आसानी के साथ स्क्रैप साइटें

डेटा विश्लेषण या मशीन लर्निंग प्रोजेक्ट्स का प्रदर्शन करते समय, आपको आवश्यक डेटा प्राप्त करने और अपने प्रोजेक्ट को पूरा करने के लिए वेबसाइटों को परिमार्जन करने की आवश्यकता हो सकती है। पायथन प्रोग्रामिंग भाषा में उपकरण और मॉड्यूल का एक शक्तिशाली संग्रह है जिसका उपयोग इस उद्देश्य के लिए किया जा सकता है। उदाहरण के लिए, आप HTML पार्सिंग के लिए ब्यूटीफुल मॉड्यूल का उपयोग कर सकते हैं।

यहां, हम BeautifulSoup पर एक नज़र डालेंगे और यह पता लगाएंगे कि वेब स्क्रैपिंग में अब इसका व्यापक रूप से उपयोग क्यों किया जा रहा है।

सुंदरसुविधाएँ

- यह आसान नेविगेशन के लिए विभिन्न तरीके प्रदान करता है, इस तरह से पार्स पेड़ों की खोज और संशोधन आपको बहुत आसानी से एक दस्तावेज़ को विच्छेदित करने और सब कुछ निकालने की अनुमति देता है जो आपको बहुत अधिक कोड लिखे बिना चाहिए।

- यह स्वचालित रूप से आउटगोइंग दस्तावेजों को UTF-8 और आने वाले दस्तावेजों को यूनिकोड में बदल देता है। इसका मतलब है कि आपको एन्कोडिंग के बारे में चिंता नहीं करनी होगी बशर्ते कि दस्तावेज़ ने एन्कोडिंग निर्दिष्ट किया हो या सुंदर सूप इसे ऑटोडेट कर सकते हैं।

- सुंदरसुपर को अन्य लोकप्रिय पायथन पार्सर जैसे कि html5lib और lxml से बेहतर माना जाता है। यह विभिन्न पार्सिंग रणनीतियों की कोशिश कर रहा है। हालांकि, इस मॉड्यूल का एक नुकसान यह है कि यह गति की कीमत पर अधिक लचीलापन प्रदान करता है।

आपको सुंदरसुपर के साथ वेबसाइट को परिमार्जन करने की क्या आवश्यकता है?

BeautifulSoup के साथ काम करना शुरू करने के लिए, आपको अपनी मशीन पर पायथन प्रोग्रामिंग वातावरण (या तो स्थानीय या सर्वर-आधारित) स्थापित करने की आवश्यकता है। पायथन आमतौर पर ओएस एक्स में पूर्व-स्थापित होता है, लेकिन यदि आप विंडोज का उपयोग करते हैं, तो आपको आधिकारिक वेबसाइट से भाषा को डाउनलोड और इंस्टॉल करना होगा।

आपके पास सुंदरसुपर और अनुरोध मॉड्यूल स्थापित होना चाहिए।

अंत में, HTML टैगिंग और संरचना के साथ काम करना परिचित और आरामदायक होना निश्चित रूप से उपयोगी है क्योंकि आप वेब-सोर्स किए गए डेटा के साथ काम करेंगे।

आयात अनुरोध और BeautifulSoup लाइब्रेरी

पायथन प्रोग्रामिंग वातावरण को अच्छी तरह से स्थापित करने के साथ, आप अब किसी भी नाम के साथ एक नई फ़ाइल (नैनो का उपयोग करके, उदाहरण के लिए) बना सकते हैं।

रिक्वेस्ट लाइब्रेरी आपको अपने पाइथन कार्यक्रमों के भीतर एक मानव-पठनीय फॉर्म HTTP का उपयोग करने में सक्षम बनाता है, जबकि ब्यूटीफुलस को तेज गति से किया जाता है। आप दोनों पुस्तकालयों को प्राप्त करने के लिए आयात विवरण का उपयोग कर सकते हैं।

वेब पेज को कैसे इकट्ठा और पार्स करें

उस वेब पेज के URL को इकट्ठा करने के लिए request.get () विधि का उपयोग करें जिसमें से आप डेटा निकालना चाहते हैं। इसके बाद, एक BeautifulSoup ऑब्जेक्ट या पार्स ट्री बनाएं। यह ऑब्जेक्ट दस्तावेज़ से उसके तर्क के रूप में लेता है और फिर उसे पार्स करता है। पेज को एकत्र करने, पार्स करने और एक ब्यूटीफुल ऑब्जेक्ट के रूप में सेट करने के साथ, आप तब अपनी जरूरत के डेटा को इकट्ठा करने के लिए आगे बढ़ सकते हैं।

पार्स किए गए वेब पेज से वांछित पाठ निकालना

जब भी आप वेब डेटा एकत्र करना चाहते हैं, तो आपको यह जानना होगा कि वेब पेज के डॉक्यूमेंट ऑब्जेक्ट मॉडल (DOM) द्वारा उस डेटा का वर्णन कैसे किया जाता है। आपके वेब ब्राउज़र में, राइट-क्लिक (यदि विंडोज़ का उपयोग कर रहे हैं), या CTRL + क्लिक करें (यदि macOS का उपयोग कर रहे हैं) रुचि के डेटा का एक हिस्सा बनाने वाले आइटम पर। उदाहरण के लिए, यदि आप छात्रों की राष्ट्रीयताओं के बारे में डेटा निकालना चाहते हैं, तो किसी छात्र के नाम पर क्लिक करें। एक संदर्भ मेनू पॉप अप होता है, और इसके भीतर, आपको निरीक्षण तत्व (फ़ायरफ़ॉक्स के लिए) या निरीक्षण (क्रोम के लिए) के समान एक मेनू आइटम दिखाई देगा। प्रासंगिक निरीक्षण मेनू आइटम पर क्लिक करें, और वेब डेवलपर टूल आपके ब्राउज़र में दिखाई देंगे।

BeautifulSoup एक सरल लेकिन शक्तिशाली HTML पार्सिंग टूल है जो वेबसाइटों को स्क्रैप करते समय आपको लचीलेपन का एक बड़ा सौदा देता है। इसका उपयोग करते समय, सामान्य स्क्रैपिंग नियमों का पालन करना न भूलें जैसे कि वेबसाइट के नियम और शर्तें; नियमित रूप से साइट को फिर से देखना और साइट पर किए गए परिवर्तनों के अनुसार अपना कोड अपडेट करना। पायथन और ब्यूटीफुलसूप के साथ वेबसाइटों को स्क्रैप करने के बारे में यह जानकारी होने पर, अब आप आसानी से अपने प्रोजेक्ट के लिए आवश्यक वेब डेटा प्राप्त कर सकते हैं।

mass gmail