? ? ?

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

投稿用戶 ? 2024年5月1日上午11:16 ? 科研百科 ? 閱讀 48

1.網(wǎng)絡(luò)爬蟲何時(shí)有用

假設(shè)我有一個(gè)鞋店，并且想要及時(shí)了解競(jìng)爭(zhēng)對(duì)手的價(jià)格。我可以每天訪問他們的網(wǎng)站，與我店鋪中鞋子的價(jià)格進(jìn)行對(duì)比。但是，如果我店鋪中的鞋類品種繁多，或是希望能夠更加頻繁地查看價(jià)格變化的話，就需要花費(fèi)大量的時(shí)間，甚至難以實(shí)現(xiàn)。再舉一個(gè)例子，我看中了一雙鞋，想等它促銷時(shí)再購(gòu)買。我可能需要每天訪問這家鞋店的網(wǎng)站來查看這雙鞋是否降價(jià)，也許需要等待幾個(gè)月的時(shí)間，我才能如愿盼到這雙鞋促銷。上述這兩個(gè)重復(fù)性的手工流程，都可以利用網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)自動(dòng)化處理。

理想狀態(tài)下，網(wǎng)絡(luò)爬蟲并不是必須品，每個(gè)網(wǎng)站都應(yīng)該提供API，以結(jié)構(gòu)化的格式共享它們的數(shù)據(jù)。然而現(xiàn)實(shí)情況中，雖然一些網(wǎng)站已經(jīng)提供了這種API，但是它們通常會(huì)限制可以抓取的數(shù)據(jù)，以及訪問這些數(shù)據(jù)的頻率。另外，對(duì)于網(wǎng)站的開發(fā)者而言，維護(hù)前端界面比維護(hù)后端API接口優(yōu)先級(jí)更高?？傊?，我們不能僅僅依賴于API去訪問我們所需的在線數(shù)據(jù)，而是應(yīng)該學(xué)習(xí)一些網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)知識(shí)。

2. 網(wǎng)絡(luò)爬蟲是否合法

網(wǎng)絡(luò)爬蟲目前還處于早期的蠻荒階段，“允許哪些行為”這種基本秩序還處于建設(shè)之中。從目前的實(shí)踐來看，如果抓取數(shù)據(jù)的行為用于個(gè)人使用，則不存在問題；而如果數(shù)據(jù)用于轉(zhuǎn)載，那么抓取的數(shù)據(jù)類型就非常關(guān)鍵了。

世界各地法院的一些案件可以幫助我們確定哪些網(wǎng)絡(luò)爬蟲行為是允許的。在Feist Publications, Inc.起訴Rural Telephone Service Co.的案件中，美國(guó)聯(lián)邦最高法院裁定抓取并轉(zhuǎn)載真實(shí)數(shù)據(jù)（比如，電話清單）是允許的。而在澳大利亞，Telstra Corporation Limited起訴Phone Directories Company Pty Ltd這一類似案件中，則裁定只有擁有明確作者的數(shù)據(jù)，才可以獲得版權(quán)。此外，在歐盟的ofir.dk起訴home.dk一案中，最終裁定定期抓取和深度鏈接是允許的。

這些案件告訴我們，當(dāng)抓取的數(shù)據(jù)是現(xiàn)實(shí)生活中的真實(shí)數(shù)據(jù)（比如，營(yíng)業(yè)地址、電話清單）時(shí)，是允許轉(zhuǎn)載的。但是，如果是原創(chuàng)數(shù)據(jù)（比如，意見和評(píng)論），通常就會(huì)受到版權(quán)限制，而不能轉(zhuǎn)載。

無論如何，當(dāng)你抓取某個(gè)網(wǎng)站的數(shù)據(jù)時(shí)，請(qǐng)記住自己是該網(wǎng)站的訪客，應(yīng)當(dāng)約束自己的抓取行為，否則他們可能會(huì)封禁你的IP，甚至采取更進(jìn)一步的法律行動(dòng)。這就要求下載請(qǐng)求的速度需要限定在一個(gè)合理值之內(nèi)，并且還需要設(shè)定一個(gè)專屬的用戶代理來標(biāo)識(shí)自己。在下面的小節(jié)中我們將會(huì)對(duì)這些實(shí)踐進(jìn)行具體介紹。

關(guān)于上述幾個(gè)法律案件的更多信息可以參考下述地址：

http://caselaw.lp.findlaw.com/scripts/getcase. pl?court=US&vol=499&invol=340
http://www.austlii.edu.au/au/cases/cth/FCA/2010/44.html
http://www.bvhd.dk/uploads/tx_mocarticles/S_og_Handelsrettens_afg_relse_i_Ofir-sagen.pdf

3. 背景調(diào)研

在深入討論爬取一個(gè)網(wǎng)站之前，我們首先需要對(duì)目標(biāo)站點(diǎn)的規(guī)模和結(jié)構(gòu)進(jìn)行一定程度的了解。網(wǎng)站自身的robots.txt和Sitemap文件都可以為我們提供一定的幫助，此外還有一些能提供更詳細(xì)信息的外部工具，比如Google搜索和WHOIS。

3.1 檢查robots.txt

大多數(shù)網(wǎng)站都會(huì)定義robots.txt文件，這樣可以讓爬蟲了解爬取該網(wǎng)站時(shí)存在哪些限制。這些限制雖然僅僅作為建議給出，但是良好的網(wǎng)絡(luò)公民都應(yīng)當(dāng)遵守這些限制。在爬取之前，檢查robots.txt文件這一寶貴資源可以最小化爬蟲被封禁的可能，而且還能發(fā)現(xiàn)和網(wǎng)站結(jié)構(gòu)相關(guān)的線索。關(guān)于robots.txt協(xié)議的更多信息可以參見http://www.robotstxt.org。下面的代碼是我們的示例文件robots.txt中的內(nèi)容，可以訪問http://example.webscraping.com/robots.txt獲取。

# section 1 User-agent: BadCrawler Disallow: / # section 2 User-agent: * Crawl-delay: 5 Disallow: /trap # section 3 Sitemap: http://example.webscraping.com/sitemap.xml

在section 1中，robots.txt文件禁止用戶代理為BadCrawler的爬蟲爬取該網(wǎng)站，不過這種寫法可能無法起到應(yīng)有的作用，因?yàn)閻阂馀老x根本不會(huì)遵從robots.txt的要求。本章后面的一個(gè)例子將會(huì)展示如何讓爬蟲自動(dòng)遵守robots.txt的要求。

section 2規(guī)定，無論使用哪種用戶代理，都應(yīng)該在兩次下載請(qǐng)求之間給出5秒的抓取延遲，我們需要遵從該建議以避免服務(wù)器過載。這里還有一個(gè)/trap鏈接，用于封禁那些爬取了不允許鏈接的惡意爬蟲。如果你訪問了這個(gè)鏈接，服務(wù)器就會(huì)封禁你的IP一分鐘！一個(gè)真實(shí)的網(wǎng)站可能會(huì)對(duì)你的IP封禁更長(zhǎng)時(shí)間，甚至是永久封禁。不過如果這樣設(shè)置的話，我們就無法繼續(xù)這個(gè)例子了。

section 3定義了一個(gè)Sitemap文件，我們將在下一節(jié)中了解如何檢查該文件。

3.2 檢查網(wǎng)站地圖

網(wǎng)站提供的Sitemap文件（即網(wǎng)站地圖）可以幫助爬蟲定位網(wǎng)站最新的內(nèi)容，而無須爬取每一個(gè)網(wǎng)頁(yè)。如果想要了解更多信息，可以從http://www.sitemaps.org/protocol.html獲取網(wǎng)站地圖標(biāo)準(zhǔn)的定義。下面是在robots.txt文件中發(fā)現(xiàn)的Sitemap文件的內(nèi)容。

<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url><loc>http://example.webscraping.com/view/Afghanistan-1 </loc></url> <url><loc>http://example.webscraping.com/view/Aland-Islands-2 </loc></url> <url><loc>http://example.webscraping.com/view/Albania-3</loc> </url> ... </urlset>

網(wǎng)站地圖提供了所有網(wǎng)頁(yè)的鏈接，我們會(huì)在后面的小節(jié)中使用這些信息，用于創(chuàng)建我們的第一個(gè)爬蟲。雖然Sitemap文件提供了一種爬取網(wǎng)站的有效方式，但是我們?nèi)孕鑼?duì)其謹(jǐn)慎處理，因?yàn)樵撐募?jīng)常存在缺失、過期或不完整的問題。

3.3 估算網(wǎng)站大小

目標(biāo)網(wǎng)站的大小會(huì)影響我們?nèi)绾芜M(jìn)行爬取。如果是像我們的示例站點(diǎn)這樣只有幾百個(gè)URL的網(wǎng)站，效率并沒有那么重要；但如果是擁有數(shù)百萬個(gè)網(wǎng)頁(yè)的站點(diǎn)，使用串行下載可能需要持續(xù)數(shù)月才能完成，這時(shí)就需要使用第4章中介紹的分布式下載來解決了。

估算網(wǎng)站大小的一個(gè)簡(jiǎn)便方法是檢查Google爬蟲的結(jié)果，因?yàn)镚oogle很可能已經(jīng)爬取過我們感興趣的網(wǎng)站。我們可以通過Google搜索的site關(guān)鍵詞過濾域名結(jié)果，從而獲取該信息。我們可以從http://www.google.com/advanced_search了解到該接口及其他高級(jí)搜索參數(shù)的用法。

圖1所示為使用site關(guān)鍵詞對(duì)我們的示例網(wǎng)站進(jìn)行搜索的結(jié)果，即在Google中搜索site:example.webscraping.com。

從圖1中可以看出，此時(shí)Google估算該網(wǎng)站擁有202個(gè)網(wǎng)頁(yè)，這和實(shí)際情況差不多。不過對(duì)于更大型的網(wǎng)站，我們會(huì)發(fā)現(xiàn)Google的估算并不十分準(zhǔn)確。

在域名后面添加URL路徑，可以對(duì)結(jié)果進(jìn)行過濾，僅顯示網(wǎng)站的某些部分。圖2所示為搜索site:example.webscraping.com/view的結(jié)果。該搜索條件會(huì)限制Google只搜索國(guó)家頁(yè)面。

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

圖1

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

圖2

這種附加的過濾條件非常有用，因?yàn)樵诶硐肭闆r下，你只希望爬取網(wǎng)站中包含有用數(shù)據(jù)的部分，而不是爬取網(wǎng)站的每個(gè)頁(yè)面。

3.4 識(shí)別網(wǎng)站所用技術(shù)

構(gòu)建網(wǎng)站所使用的技術(shù)類型也會(huì)對(duì)我們?nèi)绾闻廊‘a(chǎn)生影響。有一個(gè)十分有用的工具可以檢查網(wǎng)站構(gòu)建的技術(shù)類型——builtwith模塊。該模塊的安裝方法如下。

pip install builtwith

該模塊將URL作為參數(shù)，下載該URL并對(duì)其進(jìn)行分析，然后返回該網(wǎng)站使用的技術(shù)。下面是使用該模塊的一個(gè)例子。

>>> import builtwith >>> builtwith.parse('http://example.webscraping.com') {u'javascript-frameworks': [u'jQuery', u'Modernizr', u'jQuery UI'], u'programming-languages': [u'Python'], u'web-frameworks': [u'Web2py', u'Twitter Bootstrap'], u'web-servers': [u'Nginx']}

從上面的返回結(jié)果中可以看出，示例網(wǎng)站使用了Python的Web2py框架，另外還使用了一些通用的JavaScript庫(kù)，因此該網(wǎng)站的內(nèi)容很有可能是嵌入在html中的，相對(duì)而言比較容易抓取。而如果改用AngularJS構(gòu)建該網(wǎng)站，此時(shí)的網(wǎng)站內(nèi)容就很可能是動(dòng)態(tài)加載的。另外，如果網(wǎng)站使用了ASP.NET，那么在爬取網(wǎng)頁(yè)時(shí)，就必須要用到會(huì)話管理和表單提交了。

3.5 尋找網(wǎng)站所有者

對(duì)于一些網(wǎng)站，我們可能會(huì)關(guān)心其所有者是誰。比如，我們已知網(wǎng)站的所有者會(huì)封禁網(wǎng)絡(luò)爬蟲，那么我們最好把下載速度控制得更加保守一些。為了找到網(wǎng)站的所有者，我們可以使用WHOIS協(xié)議查詢域名的注冊(cè)者是誰。Python中有一個(gè)針對(duì)該協(xié)議的封裝庫(kù)，其文檔地址為https://pypi.python.org/pypi/python-whois，我們可以通過pip進(jìn)行安裝。

pip install python-whois

下面是使用該模塊對(duì)appspot.com這個(gè)域名進(jìn)行WHOIS查詢時(shí)的返回結(jié)果。

>>> import whois >>> print whois.whois('appspot.com') { ... "name_servers": [ "NS1.GOOGLE.COM", "NS2.GOOGLE.COM", "NS3.GOOGLE.COM", "NS4.GOOGLE.COM", "ns4.google.com", "ns2.google.com", "ns1.google.com", "ns3.google.com" ], "org": "Google Inc.", "emails": [ "abusecomplaints@markmonitor.com", "dns-admin@google.com" ] }

從結(jié)果中可以看出該域名歸屬于Google，實(shí)際上也確實(shí)如此。該域名是用于Google App Engine服務(wù)的。當(dāng)我們爬取該域名時(shí)就需要十分小心，因?yàn)镚oogle經(jīng)常會(huì)阻斷網(wǎng)絡(luò)爬蟲，盡管實(shí)際上其自身就是一個(gè)網(wǎng)絡(luò)爬蟲業(yè)務(wù)。

4. 編寫第一個(gè)網(wǎng)絡(luò)爬蟲

為了抓取網(wǎng)站，我們首先需要下載包含有感興趣數(shù)據(jù)的網(wǎng)頁(yè)，該過程一般被稱為爬?。╟rawling）。爬取一個(gè)網(wǎng)站有很多種方法，而選用哪種方法更加合適，則取決于目標(biāo)網(wǎng)站的結(jié)構(gòu)。我們首先會(huì)探討如何安全地下載網(wǎng)頁(yè)，然后會(huì)介紹如下3種爬取網(wǎng)站的常見方法：

爬取網(wǎng)站地圖；
遍歷每個(gè)網(wǎng)頁(yè)的數(shù)據(jù)庫(kù)ID；
跟蹤網(wǎng)頁(yè)鏈接。

4.1 下載網(wǎng)頁(yè)

要想爬取網(wǎng)頁(yè)，我們首先需要將其下載下來。下面的示例腳本使用Python的urllib2模塊下載URL。

import urllib2 def download(url): return urllib2.urlopen(url).read()

當(dāng)傳入U(xiǎn)RL參數(shù)時(shí)，該函數(shù)將會(huì)下載網(wǎng)頁(yè)并返回其HTML。不過，這個(gè)代碼片段存在一個(gè)問題，即當(dāng)下載網(wǎng)頁(yè)時(shí)，我們可能會(huì)遇到一些無法控制的錯(cuò)誤，比如請(qǐng)求的頁(yè)面可能不存在。此時(shí)，urllib2會(huì)拋出異常，然后退出腳本。安全起見，下面再給出一個(gè)更健壯的版本，可以捕獲這些異常。

import urllib2 def download(url): print 'Downloading:', url try: html = urllib2.urlopen(url).read() except urllib2.URLError as e: print 'Download error:', e.reason html = None return html

現(xiàn)在，當(dāng)出現(xiàn)下載錯(cuò)誤時(shí)，該函數(shù)能夠捕獲到異常，然后返回None。

1．重試下載

下載時(shí)遇到的錯(cuò)誤經(jīng)常是臨時(shí)性的，比如服務(wù)器過載時(shí)返回的503 Service Unavailable錯(cuò)誤。對(duì)于此類錯(cuò)誤，我們可以嘗試重新下載，因?yàn)檫@個(gè)服務(wù)器問題現(xiàn)在可能已解決。不過，我們不需要對(duì)所有錯(cuò)誤都嘗試重新下載。如果服務(wù)器返回的是404 Not Found這種錯(cuò)誤，則說明該網(wǎng)頁(yè)目前并不存在，再次嘗試同樣的請(qǐng)求一般也不會(huì)出現(xiàn)不同的結(jié)果。

互聯(lián)網(wǎng)工程任務(wù)組（Internet Engineering Task Force）定義了HTTP錯(cuò)誤的完整列表，詳情可參考https://tools.ietf.org/html/rfc7231#section-6。從該文檔中，我們可以了解到4xx錯(cuò)誤發(fā)生在請(qǐng)求存在問題時(shí)，而5xx錯(cuò)誤則發(fā)生在服務(wù)端存在問題時(shí)。所以，我們只需要確保download函數(shù)在發(fā)生5xx錯(cuò)誤時(shí)重試下載即可。下面是支持重試下載功能的新版本代碼。

def download(url, num_retries=2): print 'Downloading:', url try: html = urllib2.urlopen(url).read() except urllib2.URLError as e: print 'Download error:', e.reason html = None if num_retries > 0: if hasattr(e, 'code') and 500 <= e.code < 600: # recursively retry 5xx HTTP errors return download(url, num_retries-1) return html

現(xiàn)在，當(dāng)download函數(shù)遇到5xx錯(cuò)誤碼時(shí)，將會(huì)遞歸調(diào)用函數(shù)自身進(jìn)行重試。此外，該函數(shù)還增加了一個(gè)參數(shù)，用于設(shè)定重試下載的次數(shù)，其默認(rèn)值為兩次。我們?cè)谶@里限制網(wǎng)頁(yè)下載的嘗試次數(shù)，是因?yàn)榉?wù)器錯(cuò)誤可能暫時(shí)還沒有解決。想要測(cè)試該函數(shù)，可以嘗試下載http://httpstat.us/500，該網(wǎng)址會(huì)始終返回500錯(cuò)誤碼。

>>> download('http://httpstat.us/500')Downloading: http://httpstat.us/500Download error: Internal Server ErrorDownloading: http://httpstat.us/500Download error: Internal Server ErrorDownloading: http://httpstat.us/500Download error: Internal Server Error

從上面的返回結(jié)果可以看出，download函數(shù)的行為和預(yù)期一致，先嘗試下載網(wǎng)頁(yè)，在接收到500錯(cuò)誤后，又進(jìn)行了兩次重試才放棄。

2．設(shè)置用戶代理

默認(rèn)情況下，urllib2使用Python-urllib/2.7作為用戶代理下載網(wǎng)頁(yè)內(nèi)容，其中2.7是Python的版本號(hào)。如果能使用可辨識(shí)的用戶代理則更好，這樣可以避免我們的網(wǎng)絡(luò)爬蟲碰到一些問題。此外，也許是因?yàn)樵?jīng)歷過質(zhì)量不佳的Python網(wǎng)絡(luò)爬蟲造成的服務(wù)器過載，一些網(wǎng)站還會(huì)封禁這個(gè)默認(rèn)的用戶代理。比如，在使用Python默認(rèn)用戶代理的情況下，訪問http://www.meetup.com/，目前會(huì)返回如圖3所示的訪問拒絕提示。

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

圖3

因此，為了下載更加可靠，我們需要控制用戶代理的設(shè)定。下面的代碼對(duì)download函數(shù)進(jìn)行了修改，設(shè)定了一個(gè)默認(rèn)的用戶代理“wswp”（即Web Scraping with Python的首字母縮寫）。

def download(url, user_agent='wswp', num_retries=2): print 'Downloading:', url headers = {'User-agent': user_agent} request = urllib2.Request(url, headers=headers) try: html = urllib2.urlopen(request).read() except urllib2.URLError as e: print 'Download error:', e.reason html = None if num_retries > 0: if hasattr(e, 'code') and 500 <= e.code < 600: # retry 5XX HTTP errors return download(url, user_agent, num_retries-1) return html

現(xiàn)在，我們擁有了一個(gè)靈活的下載函數(shù)，可以在后續(xù)示例中得到復(fù)用。該函數(shù)能夠捕獲異常、重試下載并設(shè)置用戶代理。

4.2 網(wǎng)站地圖爬蟲

在第一個(gè)簡(jiǎn)單的爬蟲中，我們將使用示例網(wǎng)站robots.txt文件中發(fā)現(xiàn)的網(wǎng)站地圖來下載所有網(wǎng)頁(yè)。為了解析網(wǎng)站地圖，我們將會(huì)使用一個(gè)簡(jiǎn)單的正則表達(dá)式，從<loc>標(biāo)簽中提取出URL。下面是該示例爬蟲的代碼。

def crawl_sitemap(url): # download the sitemap file sitemap = download(url) # extract the sitemap links links = re.findall('<loc>(.*?)</loc>', sitemap) # download each link for link in links: html = download(link) # scrape html here # ...

現(xiàn)在，運(yùn)行網(wǎng)站地圖爬蟲，從示例網(wǎng)站中下載所有國(guó)家頁(yè)面。

>>> crawl_sitemap('http://example.webscraping.com/sitemap.xml')Downloading: http://example.webscraping.com/sitemap.xmlDownloading: http://example.webscraping.com/view/Afghanistan-1Downloading: http://example.webscraping.com/view/Aland-Islands-2Downloading: http://example.webscraping.com/view/Albania-3...

可以看出，上述運(yùn)行結(jié)果和我們的預(yù)期一致，不過正如前文所述，我們無法依靠Sitemap文件提供每個(gè)網(wǎng)頁(yè)的鏈接。下面我們將會(huì)介紹另一個(gè)簡(jiǎn)單的爬蟲，該爬蟲不再依賴于Sitemap文件。

4.3 ID遍歷爬蟲

本節(jié)中，我們將利用網(wǎng)站結(jié)構(gòu)的弱點(diǎn)，更加輕松地訪問所有內(nèi)容。下面是一些示例國(guó)家的URL。

http://example.webscraping.com/view/Afghanistan-1
http://example.webscraping.com/view/Australia-2
http://example.webscraping.com/view/Brazil-3

可以看出，這些URL只在結(jié)尾處有所區(qū)別，包括國(guó)家名（作為頁(yè)面別名）和ID。在URL中包含頁(yè)面別名是非常普遍的做法，可以對(duì)搜索引擎優(yōu)化起到幫助作用。一般情況下，Web服務(wù)器會(huì)忽略這個(gè)字符串，只使用ID來匹配數(shù)據(jù)庫(kù)中的相關(guān)記錄。下面我們將其移除，加載http://example.webscraping.com/view/1，測(cè)試示例網(wǎng)站中的鏈接是否仍然可用。測(cè)試結(jié)果如圖4所示。

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

圖4

從圖4中可以看出，網(wǎng)頁(yè)依然可以加載成功，也就是說該方法是有用的。現(xiàn)在，我們就可以忽略頁(yè)面別名，只遍歷ID來下載所有國(guó)家的頁(yè)面。下面是使用了該技巧的代碼片段。

import itertools for page in itertools.count(1): url = 'http://example.webscraping.com/view/-%d' % page html = download(url) if html is None: break else: # success - can scrape the result pass

在這段代碼中，我們對(duì)ID進(jìn)行遍歷，直到出現(xiàn)下載錯(cuò)誤時(shí)停止，我們假設(shè)此時(shí)已到達(dá)最后一個(gè)國(guó)家的頁(yè)面。不過，這種實(shí)現(xiàn)方式存在一個(gè)缺陷，那就是某些記錄可能已被刪除，數(shù)據(jù)庫(kù)ID之間并不是連續(xù)的。此時(shí)，只要訪問到某個(gè)間隔點(diǎn)，爬蟲就會(huì)立即退出。下面是這段代碼的改進(jìn)版本，在該版本中連續(xù)發(fā)生多次下載錯(cuò)誤后才會(huì)退出程序。

# maximum number of consecutive download errors allowed max_errors = 5 # current number of consecutive download errors num_errors = 0 for page in itertools.count(1): url = 'http://example.webscraping.com/view/-%d' % page html = download(url) if html is None: # received an error trying to download this webpage num_errors = 1 if num_errors == max_errors: # reached maximum number of # consecutive errors so exit break else: # success - can scrape the result # ... num_errors = 0

上面代碼中實(shí)現(xiàn)的爬蟲需要連續(xù)5次下載錯(cuò)誤才會(huì)停止遍歷，這樣就很大程度上降低了遇到被刪除記錄時(shí)過早停止遍歷的風(fēng)險(xiǎn)。

在爬取網(wǎng)站時(shí)，遍歷ID是一個(gè)很便捷的方法，但是和網(wǎng)站地圖爬蟲一樣，這種方法也無法保證始終可用。比如，一些網(wǎng)站會(huì)檢查頁(yè)面別名是否滿足預(yù)期，如果不是，則會(huì)返回404 Not Found錯(cuò)誤。而另一些網(wǎng)站則會(huì)使用非連續(xù)大數(shù)作為ID，或是不使用數(shù)值作為ID，此時(shí)遍歷就難以發(fā)揮其作用了。例如，Amazon使用ISBN作為圖書ID，這種編碼包含至少10位數(shù)字。使用ID對(duì)Amazon的圖書進(jìn)行遍歷需要測(cè)試數(shù)十億次，因此這種方法肯定不是抓取該站內(nèi)容最高效的方法。

4.4 鏈接爬蟲

到目前為止，我們已經(jīng)利用示例網(wǎng)站的結(jié)構(gòu)特點(diǎn)實(shí)現(xiàn)了兩個(gè)簡(jiǎn)單爬蟲，用于下載所有的國(guó)家頁(yè)面。只要這兩種技術(shù)可用，就應(yīng)當(dāng)使用其進(jìn)行爬取，因?yàn)檫@兩種方法最小化了需要下載的網(wǎng)頁(yè)數(shù)量。不過，對(duì)于另一些網(wǎng)站，我們需要讓爬蟲表現(xiàn)得更像普通用戶，跟蹤鏈接，訪問感興趣的內(nèi)容。

通過跟蹤所有鏈接的方式，我們可以很容易地下載整個(gè)網(wǎng)站的頁(yè)面。但是，這種方法會(huì)下載大量我們并不需要的網(wǎng)頁(yè)。例如，我們想要從一個(gè)在線論壇中抓取用戶賬號(hào)詳情頁(yè)，那么此時(shí)我們只需要下載賬號(hào)頁(yè)，而不需要下載討論貼的頁(yè)面。本文中的鏈接爬蟲將使用正則表達(dá)式來確定需要下載哪些頁(yè)面。下面是這段代碼的初始版本。

import re def link_crawler(seed_url, link_regex): """Crawl from the given seed URL following links matched by link_regex """ crawl_queue = [seed_url] while crawl_queue: url = crawl_queue.pop() html = download(url) # filter for links matching our regular expression for link in get_links(html): if re.match(link_regex, link): crawl_queue.append(link) def get_links(html): """Return a list of links from html """ # a regular expression to extract all links from the webpage webpage_regex = re.compile('<a[^>] href=["'](.*?)["']', re.IGNORECASE) # list of all links from the webpage return webpage_regex.findall(html)

要運(yùn)行這段代碼，只需要調(diào)用link_crawler函數(shù)，并傳入兩個(gè)參數(shù)：要爬取的網(wǎng)站URL和用于跟蹤鏈接的正則表達(dá)式。對(duì)于示例網(wǎng)站，我們想要爬取的是國(guó)家列表索引頁(yè)和國(guó)家頁(yè)面。其中，索引頁(yè)鏈接格式如下。

http://example.webscraping.com/index/1
http://example.webscraping.com/index/2

國(guó)家頁(yè)鏈接格式如下。

http://example.webscraping.com/view/Afghanistan-1
http://example.webscraping.com/view/Aland-Islands-2

因此，我們可以用/(index|view)/這個(gè)簡(jiǎn)單的正則表達(dá)式來匹配這兩類網(wǎng)頁(yè)。當(dāng)爬蟲使用這些輸入?yún)?shù)運(yùn)行時(shí)會(huì)發(fā)生什么呢？你會(huì)發(fā)現(xiàn)我們得到了如下的下載錯(cuò)誤。

>>> link_crawler('http://example.webscraping.com', '/(index|view)') Downloading: http://example.webscraping.com Downloading: /index/1 Traceback (most recent call last): ... ValueError: unknown url type: /index/1

可以看出，問題出在下載/index/1時(shí)，該鏈接只有網(wǎng)頁(yè)的路徑部分，而沒有協(xié)議和服務(wù)器部分，也就是說這是一個(gè)相對(duì)鏈接。由于瀏覽器知道你正在瀏覽哪個(gè)網(wǎng)頁(yè)，所以在瀏覽器瀏覽時(shí)，相對(duì)鏈接是能夠正常工作的。但是，urllib2是無法獲知上下文的。為了讓urllib2能夠定位網(wǎng)頁(yè)，我們需要將鏈接轉(zhuǎn)換為絕對(duì)鏈接的形式，以便包含定位網(wǎng)頁(yè)的所有細(xì)節(jié)。如你所愿，Python中確實(shí)有用來實(shí)現(xiàn)這一功能的模塊，該模塊稱為urlparse。下面是link_crawler的改進(jìn)版本，使用了urlparse模塊來創(chuàng)建絕對(duì)路徑。

import urlparse def link_crawler(seed_url, link_regex): """Crawl from the given seed URL following links matched by link_regex """ crawl_queue = [seed_url] while crawl_queue: url = crawl_queue.pop() html = download(url) for link in get_links(html): if re.match(link_regex, link): link = urlparse.urljoin(seed_url, link) crawl_queue.append(link)

當(dāng)你運(yùn)行這段代碼時(shí)，會(huì)發(fā)現(xiàn)雖然網(wǎng)頁(yè)下載沒有出現(xiàn)錯(cuò)誤，但是同樣的地點(diǎn)總是會(huì)被不斷下載到。這是因?yàn)檫@些地點(diǎn)相互之間存在鏈接。比如，澳大利亞鏈接到了南極洲，而南極洲也存在到澳大利亞的鏈接，此時(shí)爬蟲就會(huì)在它們之間不斷循環(huán)下去。要想避免重復(fù)爬取相同的鏈接，我們需要記錄哪些鏈接已經(jīng)被爬取過。下面是修改后的link_crawler函數(shù)，已具備存儲(chǔ)已發(fā)現(xiàn)URL的功能，可以避免重復(fù)下載。

def link_crawler(seed_url, link_regex): crawl_queue = [seed_url] # keep track which URL's have seen before seen = set(crawl_queue) while crawl_queue: url = crawl_queue.pop() html = download(url) for link in get_links(html): # check if link matches expected regex if re.match(link_regex, link): # form absolute link link = urlparse.urljoin(seed_url, link) # check if have already seen this link if link not in seen: seen.add(link) crawl_queue.append(link)

當(dāng)運(yùn)行該腳本時(shí)，它會(huì)爬取所有地點(diǎn)，并且能夠如期停止。最終，我們得到了一個(gè)可用的爬蟲！

高級(jí)功能

現(xiàn)在，讓我們?yōu)殒溄优老x添加一些功能，使其在爬取其他網(wǎng)站時(shí)更加有用。

解析robots.txt

首先，我們需要解析robots.txt文件，以避免下載禁止爬取的URL。使用Python自帶的robotparser模塊，就可以輕松完成這項(xiàng)工作，如下面的代碼所示。

>>> import robotparser>>> rp = robotparser.RobotFileParser()>>> rp.set_url('http://example.webscraping.com/robots.txt')>>> rp.read()>>> url = 'http://example.webscraping.com'>>> user_agent = 'BadCrawler'>>> rp.can_fetch(user_agent, url)False>>> user_agent = 'GoodCrawler'>>> rp.can_fetch(user_agent, url)True

robotparser模塊首先加載robots.txt文件，然后通過can_fetch()函數(shù)確定指定的用戶代理是否允許訪問網(wǎng)頁(yè)。在本例中，當(dāng)用戶代理設(shè)置為 BadCrawler 時(shí)，robotparser模塊會(huì)返回結(jié)果表明無法獲取網(wǎng)頁(yè)，這和示例網(wǎng)站robots.txt的定義一樣。

為了將該功能集成到爬蟲中，我們需要在crawl循環(huán)中添加該檢查。

... while crawl_queue: url = crawl_queue.pop() # check url passes robots.txt restrictions if rp.can_fetch(user_agent, url): ... else: print 'Blocked by robots.txt:', url

支持代理

有時(shí)我們需要使用代理訪問某個(gè)網(wǎng)站。比如，Netflix屏蔽了美國(guó)以外的大多數(shù)國(guó)家。使用urllib2支持代理并沒有想象中那么容易（可以嘗試使用更友好的Python HTTP模塊requests來實(shí)現(xiàn)該功能，其文檔地址為http://docs.python-requests.org/）。下面是使用urllib2支持代理的代碼。

proxy = ... opener = urllib2.build_opener() proxy_params = {urlparse.urlparse(url).scheme: proxy} opener.add_handler(urllib2.ProxyHandler(proxy_params)) response = opener.open(request)

下面是集成了該功能的新版本download函數(shù)。

def download(url, user_agent='wswp', proxy=None, num_retries=2): print 'Downloading:', url headers = {'User-agent': user_agent} request = urllib2.Request(url, headers=headers) opener = urllib2.build_opener() if proxy: proxy_params = {urlparse.urlparse(url).scheme: proxy} opener.add_handler(urllib2.ProxyHandler(proxy_params)) try: html = opener.open(request).read() except urllib2.URLError as e: print 'Download error:', e.reason html = None if num_retries > 0: if hasattr(e, 'code') and 500 <= e.code < 600: # retry 5XX HTTP errors html = download(url, user_agent, proxy, num_retries-1) return html

下載限速

如果我們爬取網(wǎng)站的速度過快，就會(huì)面臨被封禁或是造成服務(wù)器過載的風(fēng)險(xiǎn)。為了降低這些風(fēng)險(xiǎn)，我們可以在兩次下載之間添加延時(shí)，從而對(duì)爬蟲限速。下面是實(shí)現(xiàn)了該功能的類的代碼。

class Throttle: """Add a delay between downloads to the same domain """ def __init__(self, delay): # amount of delay between downloads for each domain self.delay = delay # timestamp of when a domain was last accessed self.domains = {} def wait(self, url): domain = urlparse.urlparse(url).netloc last_accessed = self.domains.get(domain) if self.delay > 0 and last_accessed is not None: sleep_secs = self.delay - (datetime.datetime.now() - last_accessed).seconds if sleep_secs > 0: # domain has been accessed recently # so need to sleep time.sleep(sleep_secs) # update the last accessed time self.domains[domain] = datetime.datetime.now()

Throttle類記錄了每個(gè)域名上次訪問的時(shí)間，如果當(dāng)前時(shí)間距離上次訪問時(shí)間小于指定延時(shí)，則執(zhí)行睡眠操作。我們可以在每次下載之前調(diào)用Throttle對(duì)爬蟲進(jìn)行限速。

throttle = Throttle(delay) ... throttle.wait(url) result = download(url, headers, proxy=proxy, num_retries=num_retries)

避免爬蟲陷阱

目前，我們的爬蟲會(huì)跟蹤所有之前沒有訪問過的鏈接。但是，一些網(wǎng)站會(huì)動(dòng)態(tài)生成頁(yè)面內(nèi)容，這樣就會(huì)出現(xiàn)無限多的網(wǎng)頁(yè)。比如，網(wǎng)站有一個(gè)在線日歷功能，提供了可以訪問下個(gè)月和下一年的鏈接，那么下個(gè)月的頁(yè)面中同樣會(huì)包含訪問再下個(gè)月的鏈接，這樣頁(yè)面就會(huì)無止境地鏈接下去。這種情況被稱為爬蟲陷阱。

想要避免陷入爬蟲陷阱，一個(gè)簡(jiǎn)單的方法是記錄到達(dá)當(dāng)前網(wǎng)頁(yè)經(jīng)過了多少個(gè)鏈接，也就是深度。當(dāng)?shù)竭_(dá)最大深度時(shí)，爬蟲就不再向隊(duì)列中添加該網(wǎng)頁(yè)中的鏈接了。要實(shí)現(xiàn)這一功能，我們需要修改seen變量。該變量原先只記錄訪問過的網(wǎng)頁(yè)鏈接，現(xiàn)在修改為一個(gè)字典，增加了頁(yè)面深度的記錄。

def link_crawler(..., max_depth=2): max_depth = 2 seen = {} ... depth = seen[url] if depth != max_depth: for link in links: if link not in seen: seen[link] = depth 1 crawl_queue.append(link)

現(xiàn)在有了這一功能，我們就有信心爬蟲最終一定能夠完成。如果想要禁用該功能，只需將max_depth設(shè)為一個(gè)負(fù)數(shù)即可，此時(shí)當(dāng)前深度永遠(yuǎn)不會(huì)與之相等。

最終版本

這個(gè)高級(jí)鏈接爬蟲的完整源代碼可以在https://bitbucket.org/ wswp/code/src/tip/chapter01/link_crawler3.py下載得到。要測(cè)試這段代碼，我們可以將用戶代理設(shè)置為BadCrawler，也就是本章前文所述的被robots.txt屏蔽了的那個(gè)用戶代理。從下面的運(yùn)行結(jié)果中可以看出，爬蟲果然被屏蔽了，代碼啟動(dòng)后馬上就會(huì)結(jié)束。

>>> seed_url = 'http://example.webscraping.com/index'>>> link_regex = '/(index|view)'>>> link_crawler(seed_url, link_regex, user_agent='BadCrawler')Blocked by robots.txt: http://example.webscraping.com/

現(xiàn)在，讓我們使用默認(rèn)的用戶代理，并將最大深度設(shè)置為1，這樣只有主頁(yè)上的鏈接才會(huì)被下載。

>>> link_crawler(seed_url, link_regex, max_depth=1)Downloading: http://example.webscraping.com//indexDownloading: http://example.webscraping.com/index/1Downloading: http://example.webscraping.com/view/Antigua-and-Barbuda-10Downloading: http://example.webscraping.com/view/Antarctica-9Downloading: http://example.webscraping.com/view/Anguilla-8Downloading: http://example.webscraping.com/view/Angola-7Downloading: http://example.webscraping.com/view/Andorra-6Downloading: http://example.webscraping.com/view/American-Samoa-5Downloading: http://example.webscraping.com/view/Algeria-4Downloading: http://example.webscraping.com/view/Albania-3Downloading: http://example.webscraping.com/view/Aland-Islands-2Downloading: http://example.webscraping.com/view/Afghanistan-1

和預(yù)期一樣，爬蟲在下載完國(guó)家列表的第一頁(yè)之后就停止了。

本文節(jié)選自《用Python寫網(wǎng)絡(luò)爬蟲》

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

本書講解了如何使用Python來編寫網(wǎng)絡(luò)爬蟲程序，內(nèi)容包括網(wǎng)絡(luò)爬蟲簡(jiǎn)介，從頁(yè)面中抓取數(shù)據(jù)的三種方法，提取緩存中的數(shù)據(jù)，使用多個(gè)線程和進(jìn)程來進(jìn)行并發(fā)抓取，如何抓取動(dòng)態(tài)頁(yè)面中的內(nèi)容，與表單進(jìn)行交互，處理頁(yè)面中的驗(yàn)證碼問題，以及使用Scarpy和Portia來進(jìn)行數(shù)據(jù)抓取，并在最后使用本書介紹的數(shù)據(jù)抓取技術(shù)對(duì)幾個(gè)真實(shí)的網(wǎng)站進(jìn)行了抓取，旨在幫助讀者活學(xué)活用書中介紹的技術(shù)。

本書適合有一定Python編程經(jīng)驗(yàn)，而且對(duì)爬蟲技術(shù)感興趣的讀者閱讀。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請(qǐng)發(fā)送郵件至舉報(bào)，一經(jīng)查實(shí)，本站將立刻刪除。

贊 (0)

投稿用戶

2023 年中程序員薪酬報(bào)告出爐，軟件工程經(jīng)理與技術(shù)項(xiàng)目經(jīng)理收入增幅明顯

上一篇 2024年5月1日上午11:10

APP開發(fā)前景：未來已來！（app開發(fā)的前景）

下一篇 2024年5月1日上午11:22

項(xiàng)目系統(tǒng) 信息管理方案(項(xiàng)目系統(tǒng) 信息管理)

項(xiàng)目系統(tǒng)信息管理：讓項(xiàng)目管理更加高效隨著現(xiàn)代項(xiàng)目管理的日益復(fù)雜和多樣化，項(xiàng)目系統(tǒng)信息管理已經(jīng)成為了項(xiàng)目管理中不可或缺的一部分。項(xiàng)目系統(tǒng)信息管理可以幫助項(xiàng)目經(jīng)理更好地組織和管理項(xiàng)目…

科研百科 2024年9月1日
210
項(xiàng)目申報(bào)管理系統(tǒng)論文

項(xiàng)目申報(bào)管理系統(tǒng)論文摘要項(xiàng)目申報(bào)管理系統(tǒng)是一種用于管理項(xiàng)目申報(bào)和評(píng)審的軟件系統(tǒng)。本文介紹了項(xiàng)目申報(bào)管理系統(tǒng)的基本概念和功能，并探討了系統(tǒng)的優(yōu)點(diǎn)和不足之處。通過對(duì)實(shí)際使用情況的調(diào)…

科研百科 2025年6月22日
00
黨務(wù)管理系統(tǒng)平臺(tái)的基本用途，你知道嗎？（黨務(wù)管理系統(tǒng)平臺(tái)的基本用途,你知道嗎為什么）

黨務(wù)管理系統(tǒng)平臺(tái)作為智慧黨建系統(tǒng)的一個(gè)重要功能，其主要是圍繞黨務(wù)工作來展開的，今天小編就來說說黨務(wù)管理系統(tǒng)平臺(tái)的用途。黨務(wù)管理系統(tǒng)平臺(tái)的基本用途黨務(wù)管理系統(tǒng)平臺(tái)的功能圍繞基礎(chǔ)的…

科研百科 2024年7月3日
370
韓登武甘肅省畜牧

韓登武，甘肅省畜牧廳廳長(zhǎng)，是甘肅省畜牧行業(yè)的領(lǐng)軍人物。他深知畜牧產(chǎn)業(yè)對(duì)甘肅省經(jīng)濟(jì)發(fā)展和人民生活的重要性，因此在擔(dān)任甘肅省畜牧廳廳長(zhǎng)的職務(wù)期間，致力于推動(dòng)甘肅省畜牧產(chǎn)業(yè)的發(fā)展和創(chuàng)新。…

科研百科 2024年11月10日
130
播報(bào) – 用實(shí)績(jī)凝聚群眾“向心力”，河南安陽(yáng)黨建引領(lǐng)助推“民心工程”

導(dǎo) 讀河南省安陽(yáng)市堅(jiān)持黨建引領(lǐng)，通過加強(qiáng)陣地建設(shè)、壯大集體經(jīng)濟(jì)、加強(qiáng)人才支持等，調(diào)動(dòng)全員力量參與鄉(xiāng)村振興，切實(shí)幫助解決群眾生產(chǎn)生活中遇到的各種難題。內(nèi)黃縣城關(guān)鎮(zhèn)李小汪村黨群服務(wù)…

科研百科 2023年7月29日
1340
心血管科科研項(xiàng)目

心血管科科研項(xiàng)目：探索新的心血管治療方案近年來，隨著醫(yī)療技術(shù)的不斷進(jìn)步，心血管疾病已經(jīng)成為全球最常見的疾病之一。心血管科科研項(xiàng)目是一個(gè)重要的研究領(lǐng)域，旨在探索新的心血管治療方案…

科研百科 2025年4月7日
20
科研項(xiàng)目擇優(yōu)采購(gòu)方案

科研項(xiàng)目的擇優(yōu)采購(gòu)方案隨著科技的不斷發(fā)展，科研項(xiàng)目的采購(gòu)工作也在不斷地進(jìn)行中。采購(gòu)工作對(duì)于科研項(xiàng)目的順利進(jìn)行至關(guān)重要，它涉及到項(xiàng)目的材料和設(shè)備，以及后續(xù)的維護(hù)和升級(jí)。因此，制定一…

科研百科 2025年6月4日
10
縣級(jí)醫(yī)生如何做科研項(xiàng)目

作為一名縣級(jí)醫(yī)生，如何開展科研項(xiàng)目對(duì)于提高臨床水平和推動(dòng)醫(yī)療事業(yè)發(fā)展至關(guān)重要。在這篇文章中，我將介紹一些縣級(jí)醫(yī)生如何做科研項(xiàng)目的方法和技巧。首先，縣級(jí)醫(yī)生需要明確自己的科研項(xiàng)目方…

科研百科 2025年5月5日
10
黨組織書記抓基層黨建工作述職報(bào)告，規(guī)整規(guī)范！“六個(gè)”提升亮點(diǎn)

黨組織書記抓基層黨建工作述職報(bào)告現(xiàn)在我就2022年度抓基層黨建工作履職情況報(bào)告如下。一、工作成效及亮點(diǎn) 2022年以來，組織單位通過聚力“六個(gè)”提升，扎實(shí)推動(dòng)基層黨建“五基三化…

科研百科 2023年6月28日
1680
2021上半年信息系統(tǒng)項(xiàng)目管理師

2021上半年信息系統(tǒng)項(xiàng)目管理師考試已經(jīng)結(jié)束，考生們可能對(duì)考試結(jié)果不要過于擔(dān)心，因?yàn)榭荚囍皇窃u(píng)估考生項(xiàng)目管理技能的一種方式。接下來，我們將探討信息系統(tǒng)項(xiàng)目管理師考試的重要性以及如何…

科研百科 2024年7月24日
300

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

1.網(wǎng)絡(luò)爬蟲何時(shí)有用

2. 網(wǎng)絡(luò)爬蟲是否合法

3. 背景調(diào)研

3.1 檢查robots.txt

3.2 檢查網(wǎng)站地圖

3.3 估算網(wǎng)站大小

3.4 識(shí)別網(wǎng)站所用技術(shù)

3.5 尋找網(wǎng)站所有者

4. 編寫第一個(gè)網(wǎng)絡(luò)爬蟲

4.1 下載網(wǎng)頁(yè)

1．重試下載

2．設(shè)置用戶代理

4.2 網(wǎng)站地圖爬蟲

4.3 ID遍歷爬蟲

4.4 鏈接爬蟲

高級(jí)功能

解析robots.txt

支持代理

下載限速

避免爬蟲陷阱

最終版本

相關(guān)推薦