新聞資訊
您當前的(de)位置:首頁 新聞資訊
百度蜘蛛抓取原理(lǐ) 發布時(shí)間(jiān):2014®γε±-04-25 已訪問(wèn):2120 次



網絡蜘蛛即Web Spider,是(shì)一(yī)個(gè)比喻得(de)很(hě​εn)形象的(de)名字。把互聯網比喻成一(yī)個(gè)蜘蛛βφ網,那(nà)麽Spider就(jiù)是(shì•≈™)在網上(shàng)爬來(lái)爬去(qù)的(de)蜘蛛。網絡蜘蛛是(shìλφ☆)通(tōng)過網頁的(de)鏈接地(dì)址來(l☆εái)尋找網頁,從(cóng)網站(zhàn)÷¥★某一(yī)個(gè)頁面(通(tōng)常是(shì)首頁)開(kāi)始,讀(d♠✔ú)取網頁的(de)內(nèi)容,找到(dào)在網頁中的(de)其它鏈接地(dì)址,然後通¥×(tōng)過這(zhè)些(xiē)鏈接地(dì£≠)址尋找下(xià)一(yī)個(gè)網頁,這(zhè)樣一(yī)直循環下(xià)去(q•>✔'ù),直到(dào)把這(zhè)個(gè)網站(zhàn)所有(yǒu)‌‍$的(de)網頁都(dōu)抓取完為(wèi)止。如(rú)果把整個(gè)互聯網當成一(yī)•××&個(gè)網站(zhàn),那(nà)麽網絡蜘蛛就(jiù)可(kě)以用(yòng)這(zh‌<‌♣è)個(gè)原理(lǐ)把互聯網上(shàng)所有(yǒu)的(de)網頁都(∑ dōu)抓取下(xià)來(lái)。 

在抓取網頁的(de)時(shí)候,網絡蜘蛛一(yī)般有(yǒu)兩種策略:廣度優先 ≈和(hé)深度優先  

廣度優先是(shì)指網絡蜘蛛會(huì)先抓取起始網頁中鏈接的(‍γγde)所有(yǒu)網頁,然後再選擇其中的(de)一✘α←(yī)個(gè)鏈接網頁,繼續抓取在此網頁中鏈接的(de)所有(y><ε∞ǒu)網頁。這(zhè)是(shì)最常用(yòng)的(de)方式,因為(wèi)這(zh​←"è)個(gè)方法可(kě)以讓網絡蜘蛛并行(xíng)處理(lǐ)δ≠π,提高(gāo)其抓取速度。

深度優先是(shì)指網絡蜘蛛會(huì)從(cóng)起始頁開(kāi)始,一(yī)個✔<(gè)鏈接一(yī)個(gè)鏈接跟蹤下₽₽φ•(xià)去(qù),處理(lǐ)完這(zhè)條線路(lù)之後再轉入下(xià↕•)一(yī)個(gè)起始頁,繼續跟蹤鏈接。這(zhè)個(gèα≈)方法有(yǒu)個(gè)優點是(shì)網絡蜘蛛在設計(jì)的(de)時(shí)候比∞×較容易。