百度蜘蛛抓取原理(lǐ) - 新聞資訊 - 北京韓金網絡技術有限公司

新聞資訊

您當前的(de)位置：首頁新聞資訊

百度蜘蛛抓取原理(lǐ) 發布時(shí)間(jiān)：2014®γε±-04-25 已訪問(wèn)：2120 次

網絡蜘蛛即Web Spider，是(shì)一(yī)個(gè)比喻得(de)很(hěεn)形象的(de)名字。把互聯網比喻成一(yī)個(gè)蜘蛛βφ網，那(nà)麽Spider就(jiù)是(shì•≈™)在網上(shàng)爬來(lái)爬去(qù)的(de)蜘蛛。網絡蜘蛛是(shìλφ☆)通(tōng)過網頁的(de)鏈接地(dì)址來(l☆εái)尋找網頁，從(cóng)網站(zhàn)÷¥★某一(yī)個(gè)頁面（通(tōng)常是(shì)首頁）開(kāi)始，讀(d♠✔ú)取網頁的(de)內(nèi)容，找到(dào)在網頁中的(de)其它鏈接地(dì)址，然後通¥×(tōng)過這(zhè)些(xiē)鏈接地(dì£≠)址尋找下(xià)一(yī)個(gè)網頁，這(zhè)樣一(yī)直循環下(xià)去(q•>✔'ù)，直到(dào)把這(zhè)個(gè)網站(zhàn)所有(yǒu)‌‍$的(de)網頁都(dōu)抓取完為(wèi)止。如(rú)果把整個(gè)互聯網當成一(yī)•××&個(gè)網站(zhàn)，那(nà)麽網絡蜘蛛就(jiù)可(kě)以用(yòng)這(zh‌<‌♣è)個(gè)原理(lǐ)把互聯網上(shàng)所有(yǒu)的(de)網頁都(∑ dōu)抓取下(xià)來(lái)。

在抓取網頁的(de)時(shí)候，網絡蜘蛛一(yī)般有(yǒu)兩種策略：廣度優先 ≈和(hé)深度優先

廣度優先是(shì)指網絡蜘蛛會(huì)先抓取起始網頁中鏈接的(‍γγde)所有(yǒu)網頁，然後再選擇其中的(de)一✘α←(yī)個(gè)鏈接網頁，繼續抓取在此網頁中鏈接的(de)所有(y><ε∞ǒu)網頁。這(zhè)是(shì)最常用(yòng)的(de)方式，因為(wèi)這(zh←"è)個(gè)方法可(kě)以讓網絡蜘蛛并行(xíng)處理(lǐ)δ≠π，提高(gāo)其抓取速度。

深度優先是(shì)指網絡蜘蛛會(huì)從(cóng)起始頁開(kāi)始，一(yī)個✔<(gè)鏈接一(yī)個(gè)鏈接跟蹤下₽₽φ•(xià)去(qù)，處理(lǐ)完這(zhè)條線路(lù)之後再轉入下(xià↕•)一(yī)個(gè)起始頁，繼續跟蹤鏈接。這(zhè)個(gèα≈)方法有(yǒu)個(gè)優點是(shì)網絡蜘蛛在設計(jì)的(de)時(shí)候比∞×較容易。

上(shàng)一(yī)篇：徐州金(jīn)網官網全新升級
下(xià)一(yī)篇：徐州網站(zhàn)建設哪家(jiā)好(hǎo)