您好(hǎo),歡迎來(lái)到(dào)盤龍區華♦♠銘誠泰網絡工作室官方網站(zhàn)!ZJJCL.CN
新聞動态
您現(xiàn)在的(de)位置:首頁 > 技(jì)術(shù)文(wén)摘
屏蔽百度蜘蛛或某一(yī)爬蟲的(de)四種方法
來(lái)源:創立工(gōng)作(zuò)室♠≠ 作(zuò)者:馮軍 發布時(shí)間(j•λ iān):2020-09-08 17:39:47 閱讀(d€>ú) 1687 次

今天看(kàn)到(dào)群裡(lǐ)有(yǒu)人(rén)說(s<↕$∑huō)被一(yī)俄羅斯爬蟲一(yī)天內(nèi)訪問(wèn)網站↑↕±♦(zhàn)幾千次,想屏蔽它,其實,類似這(z≥®hè)樣的(de)問(wèn)題解決方案網上(shàng)有↑ (yǒu)不(bù)少(shǎo)文(wén)章(zhāng),屏蔽俄™≤羅斯爬蟲跟屏蔽百度蜘蛛的(de)原理(lǐ)是(shì)一(yī)樣的γΩσ(de),可(kě)以通(tōng)過如(rú)下¶↓δφ(xià)四種方法來(lái)處理(lǐ)。

1、robots.txt屏蔽百度或某一(yī)爬蟲抓取

打開(kāi)robots.txt,在開(kāi)頭加入如(rú)下(xià₹"÷→)語句(以百度蜘蛛為(wèi)例):

User-agent: baiduspider♥​
Disallow: /

代碼分(fēn)析,首先要(yào)知(zhī)道(↕≤♠δdào)該爬蟲的(de)名稱,如(rú)百度爬蟲是(shì)Baiduspider,Google爬蟲是(shì)Googlebot,360搜索爬蟲是(shì)360Spider,你(nǐ)可(kě)以通(tōng)過各大(dà)搜索引擎蜘蛛爬蟲UA彙總來(lái)獲取爬蟲的(de)名稱,例如(rú),微(÷→wēi)軟必應的(de)蜘蛛UA是(shì):

"Mozilla/5.0 (compatib≠✘le; bingbot/2.0; +http://www.$δ←bing.com/bingbot.htm)"

我們就(jiù)可(kě)以知(zhī)道(​‌εdào)它的(de)爬蟲名稱為(wèi)bingbot

2、robots Meta标簽屏蔽百度或某一(y€↔÷ī)爬蟲抓取

如(rú)果是(shì)針對(duì)某π>一(yī)個(gè)頁面屏蔽百度蜘蛛或某一(yī)爬蟲'€ 抓取,那(nà)麽可(kě)以通(tōnπ∞g)過Meta标簽來(lái)實現(xiàn)。代碼如(rú)下(xià):

<head> … 
↓¥α
<meta name="robo ∏αβts" content="noindex,nofollow£"" /> 
</head>

這(zhè)是(shì)屏蔽所有(yǒu)蜘蛛爬蟲₽>$↕抓取該頁面的(de)寫法,如(rú)果隻屏蔽某個(g↕$♥ è)爬蟲,可(kě)以把"robots"改為(wèi)♠☆♥特定的(de)爬蟲名稱,爬蟲名稱可(kě)以通 π(tōng)過上(shàng)面方法1中提及的(de)辦​•​法獲得(de)。例如(rú)想隻屏蔽微(  ₩&wēi)軟必應的(de)蜘蛛抓取該頁,則可(kě)以寫成:

<head> … 
<γ€γmeta name="bingbot" conten ₽"♥t="noindex,nofollow" /> 
</he♥↓∞σad>

3、.htaccess屏蔽百度或某一(yī∏∞÷)爬蟲抓取

一(yī)些(xiē)可(kě)惡的(de)爬蟲并不(bù)遵循robots規→ ‌ 則,那(nà)麽我們還(hái)可(kě)以通(tōng)過.hγ÷∑taccess來(lái)屏蔽它,代碼如‍₹≥(rú)下(xià)(以百度蜘蛛為(wèi↔₽)例):

RewriteEngine on
RewriteCond %{∑±∏HTTP_USER_AGENT} ^.*Baiduspid↔§↕♠er.* [NC]
RewriteRule©® .* - [F]

如(rú)果是(shì)Apache服務器(qì),可(kě)以修改配置文(wén)件(jiàn) httpd.✔"αconf ,這(zhè)樣寫( /var/www/html 是(shì)根目錄):

<Directory "/var/www/html">
..•δ'.

SetEnvIfNoCase User-A'₽​‍gent ^.*Baiduspider.* bad_boβ$t

Order Allow,Deny
A₩ ♦llow from all
Deny from env=bad_bα♥¶™ot

...
</Directory>

如(rú)果是(shì)Nginx服務器(qλ∞ì),可(kě)以修改配置文(wén)件(jiàn)φ>✘'( 默認是(shì) nginx.conf ),這(zhè)樣寫:

Server{
...
  location / {
 α>•♥   if ($http_user_agent !~ ¥•Baiduspider) {
      re ≠>turn 403;
    }
  }
♦∞
...
}

4、通(tōng)過IP屏蔽百度或某一(yī)爬蟲抓取

我們還(hái)可(kě)以通(tōng♥∏δ)過分(fēn)析日(rì)志(zhì),獲得(de)爬蟲的(deδ✘≤λ)IP地(dì)址,然後從(cóng)服務器(qì)防火"✔ε(huǒ)牆屏蔽該IP,不(bù)過爬蟲通(​<‌♠tōng)常有(yǒu)很(hěn)多(duō)IP,我們可(kě)以₽'↑γ屏蔽爬蟲的(de)IP段。

不(bù)過此方法沒有(yǒu)前面幾個(gè)方法實用✘λ(yòng),較少(shǎo)人(rén)這(zh ‌≈÷è)樣操作(zuò)。