- 作(zuò)者:admin
- 發表時(shí)間(jiān):2018-06-19 10:17:48
- 來(lái)源:未知
在常見負面SEO帖子裏提到過,我這個(gè)小(xiǎo)博客有(yǒu)幾十個(gè)域名鏡像我。有(yǒu)讀者問我,怎麽知道(dào)自己被鏡像了,網站(zhàn)被鏡像又改怎麽處理(lǐ)。今天寫個(gè)帖子聊一下。
什麽是惡意鏡像網站(zhàn)?
鏡像網站(zhàn)指的是和(hé)你(nǐ)的網站(zhàn)基本一樣、并且實時(shí)同步的其它網站(zhàn)。就像照鏡子一樣,所以名為(wèi)鏡像。
有(yǒu)的鏡像網站(zhàn)是沒有(yǒu)惡意的,很(hěn)可(kě)能是你(nǐ)自己設置的,為(wèi)了方便用戶能從多(duō)個(gè)域名訪問網站(zhàn),被封了一個(gè),還(hái)有(yǒu)其它的域名。比如著名的草榴社區(qū),好像就有(yǒu)很(hěn)多(duō)鏡像可(kě)以訪問。
有(yǒu)的鏡像,也就是這裏討(tǎo)論的鏡像,是不懷好意的,通(tōng)常是别人(rén)設置的,要麽為(wèi)了負面SEO你(nǐ)的網站(zhàn),要麽為(wèi)了利用你(nǐ)的內(nèi)容獲得(de)排名,然後把用戶轉向到敏感、非法內(nèi)容網站(zhàn)上(shàng)去。
網上(shàng)有(yǒu)的文章把采集和(hé)鏡像混在一起。雖然表現形式差不多(duō),但(dàn)嚴格來(lái)說,采集和(hé)鏡像實現方法、表現形式是有(yǒu)區(qū)别的。
采集的網站(zhàn)一般是提前抓取别人(rén)網站(zhàn)的內(nèi)容,放入自己數(shù)據庫,再用程序調用到頁面上(shàng)。被采集網站(zhàn)有(yǒu)新內(nèi)容時(shí),采集網站(zhàn)并不能實時(shí)同步更新,要再采集之後才能出現。一旦被采集,內(nèi)容已經在對方數(shù)據庫裏了,從技(jì)術(shù)上(shàng)是無法阻止采集網站(zhàn)顯示這些(xiē)內(nèi)容的。這篇帖子說的不是這種。
鏡像網站(zhàn)并不事先抓取內(nèi)容,而是有(yǒu)人(rén)訪問網站(zhàn)時(shí),實時(shí)從被鏡像的網站(zhàn)調取內(nèi)容,做(zuò)些(xiē)處理(lǐ)(替換URL、文字,加文字、加JS等),然後實時(shí)顯示。被鏡像的網站(zhàn)有(yǒu)任何更新,鏡像網站(zhàn)是實時(shí)同步的。
網上(shàng)有(yǒu)賣用于鏡像網站(zhàn)的小(xiǎo)偷程序的。小(xiǎo)偷程序通(tōng)常也可(kě)以用來(lái)做(zuò)采集。為(wèi)了不給他們做(zuò)宣傳,就不提名字了。從他們的官網摘取幾條程序功能,有(yǒu)助于理(lǐ)解後面的內(nèi)容:
全自動分析,內(nèi)外鏈接自動轉換、圖片地址、css、js,自動分析CSS內(nèi)的圖片
內(nèi)置強大(dà)替換和(hé)過濾功能,标簽過濾、站(zhàn)內(nèi)外過濾、字符串替換、等等
僞原創,近義詞替換有(yǒu)利于seo
增加URL路由,實現全站(zhàn)URL變換,個(gè)性化本站(zhàn)URL地址
超級模闆增加移動模闆、自定義欄目功能
增加自動獲取301、 302 重定向的采集,解決跳(tiào)WWW,跳(tiào)https采集代理(lǐ)IP、僞造IP、随機IP、僞造user-agent、僞造referer來(lái)路、自定義cookie,以便應對防采集措施
其實我是挺迷惑,網信辦為(wèi)什麽不責令關閉賣小(xiǎo)偷程序的網站(zhàn),這種網站(zhàn)才是真正該關的,而不是另外一些(xiē)網站(zhàn)。
被鏡像有(yǒu)什麽危險
從SEO角度看,權重不高(gāo)的小(xiǎo)站(zhàn)、新站(zhàn),被鏡像意味着有(yǒu)其它網站(zhàn)和(hé)你(nǐ)的網站(zhàn)內(nèi)容基本一樣,搜索引擎有(yǒu)可(kě)能認為(wèi)你(nǐ)的網站(zhàn)不是原版,鏡像網站(zhàn)才是,所以把排名、流量給了鏡像網站(zhàn)。
對有(yǒu)一定曆史、權重的網站(zhàn),鏡像網站(zhàn)取代原版網站(zhàn)的可(kě)能性微乎其微。但(dàn)從心情角度考慮,被别人(rén)鏡像,內(nèi)容被别人(rén)偷走,即使沒有(yǒu)其它明(míng)顯後果,也還(hái)是挺煩人(rén)的一件事。
另一個(gè)煩人(rén)的事是,鏡像網站(zhàn)一般來(lái)說并不是要和(hé)你(nǐ)提供同樣的産品或服務,而是把用戶轉到賭博、色情等服務上(shàng)去。有(yǒu)的是通(tōng)過JS把賭博、色情內(nèi)容顯示給用戶,有(yǒu)的直接把用戶轉向到另外的網站(zhàn)上(shàng)去。
怎樣發現自己網站(zhàn)被鏡像了
有(yǒu)時(shí)候注意到被鏡像了是因為(wèi)自己網站(zhàn)排名下降,懷疑有(yǒu)人(rén)負面SEO。有(yǒu)時(shí)候是搜索品牌名稱,看到鏡像網站(zhàn)。已經知道(dào)自己被鏡像了好辦,直接看下面怎麽處理(lǐ)部分。
很(hěn)多(duō)站(zhàn)長則完全不知道(dào)自己網站(zhàn)是否被鏡像了。有(yǒu)幾個(gè)我常用的檢查方法。
一是百度統計(jì)後台:
受訪域名部分列出了使用相同百度統計(jì)代碼的域名。其中出現快照、百度/谷歌(gē)翻譯等是正常的,但(dàn)出現一些(xiē)奇奇怪怪的域名就要查看一下了,比如上(shàng)圖裏的第5、7、 8 個(gè),訪問一下就知道(dào)都是鏡像SEO每天一帖,引誘用戶賭博的網站(zhàn),然後站(zhàn)長把SEO每天一帖的統計(jì)代碼也照抄過去了。
看看上(shàng)面列出的小(xiǎo)偷出現功能就知道(dào),其實統計(jì)代碼很(hěn)容易替換或删除的。所以在受訪域名隻能看到一小(xiǎo)部分鏡像網站(zhàn)
。第二是搜索網站(zhàn)的特征句子。最容易想到的是網站(zhàn)品牌名稱、首頁标題等,确實可(kě)以發現一些(xiē)鏡像網站(zhàn)。但(dàn)如前所述,品牌名絕大(dà)多(duō)數(shù)是會(huì)被替換的,所以我更喜歡搜索一些(xiē)頁面上(shàng)的特征句子,比如本博客最上(shàng)面的副标題:Zac的SEO博客,堅持 12 年,優化成為(wèi)生(shēng)活。搜索一下就會(huì)看到:
看來(lái)我的博客很(hěn)容易吸引菠菜啊。
一般我不搜索帖子裏的句子,因為(wèi)那(nà)會(huì)返回大(dà)量轉載、抄襲的頁面,不是鏡像的。
從上(shàng)圖可(kě)以看到,鏡像網站(zhàn)自動把title及正文中的品牌詞或指定關鍵詞替換了,訪問這類網站(zhàn)效果常常是這樣的:
上(shàng)圖鏡像網站(zhàn)沒有(yǒu)轉向,也沒有(yǒu)用JS顯示大(dà)量菠菜內(nèi)容,而是直接在正文中插入菠菜內(nèi)容和(hé)鏈接。有(yǒu)的鏡像網站(zhàn)用JS在頁面上(shàng)半部分顯示大(dà)量內(nèi)容,就像在典型賭博網站(zhàn)看到的一樣,拉到下面才能看到鏡像的內(nèi)容。
為(wèi)了搜得(de)更全,還(hái)經常需要多(duō)搜索其它地方的特征文字。比如搜索頁腳的聲明(míng)中的一句:“明(míng)明(míng)很(hěn)久一貼,為(wèi)什麽号稱“看到另一些(xiē)鏡像網站(zhàn):
為(wèi)什麽搜索句子的一半,不是搜索“明(míng)明(míng)很(hěn)久一貼,為(wèi)什麽号稱SEO每天一帖“呢?還(hái)是因為(wèi)品牌詞或特征關鍵詞經常是會(huì)被替換的,比如這樣:
一般我是用Google做(zuò)這種搜索,因為(wèi)Google什麽亂七八糟的都收錄。
網站(zhàn)被鏡像了怎麽辦?
首先,一些(xiē)網上(shàng)提到的解決辦法并沒有(yǒu)什麽用。
比如有(yǒu)的說頁面上(shàng)的鏈接用絕對地址有(yǒu)幫助,其實小(xiǎo)偷程序都會(huì)自動替換網址,用相對地址還(hái)是絕對地址沒什麽差别。還(hái)有(yǒu)的說頁面上(shàng)加上(shàng)網站(zhàn)鏈接、網站(zhàn)名稱、版權聲明(míng)之類的,搜索引擎會(huì)識别哪個(gè)是正版。但(dàn)鏡像小(xiǎo)偷程序連鏈接帶文字都可(kě)以全部自動替換,這麽做(zuò)并沒有(yǒu)用。發現鏡像網站(zhàn)後的處理(lǐ)原則就是讓鏡像網站(zhàn)不能在鏡像域名上(shàng)顯示你(nǐ)的內(nèi)容。考慮到鏡像網站(zhàn)是要實時(shí)訪問和(hé)調用被鏡像的頁面的,所以可(kě)以考慮幾個(gè)方法。
比如用JS檢測一下正在被打開(kāi)的頁面是不是在自己的域名上(shàng),是的話(huà)正常顯示,不是的話(huà)(域名是鏡像網站(zhàn)時(shí))強迫轉向到自己域名:
if (window.location.hostname !== ‘www.seozac.com’)
{window.top.location.href = ‘https://www.seozac.com/’;}
(聲明(míng):我對程序不熟,代碼隻是簡單舉例,具體(tǐ)怎麽寫,請(qǐng)問你(nǐ)的程序員。)
不過這種方法隻對用戶有(yǒu)效,搜索引擎不執行(xíng)JS,還(hái)是會(huì)抓取到鏡像內(nèi)容。也可(kě)以用PHP寫腳本判斷和(hé)轉向。
有(yǒu)時(shí)候由于種種原因,程序不起作(zuò)用。另一個(gè)直接的方法是屏蔽鏡像網站(zhàn)來(lái)訪問的IP地址。
先查一下鏡像網站(zhàn)服務器(qì)IP:
把對方主機IP先屏蔽了。不過鏡像網站(zhàn)來(lái)實時(shí)抓取用的IP大(dà)部分情況下不是域名主機IP,可(kě)能是CDN,可(kě)能是僞造IP,也可(kě)能是多(duō)IP的服務器(qì)。要發現必須屏蔽的IP,需要查看網站(zhàn)原始日志(zhì)。我的一個(gè)小(xiǎo)竅門(mén)是,訪問鏡像網站(zhàn)上(shàng)一個(gè)很(hěn)少(shǎo)人(rén)會(huì)訪問的頁面,比如翻頁第 70 頁,然後馬上(shàng)查看日志(zhì),這個(gè)頁面被訪問的IP就是應該屏蔽的IP:
屏蔽了這個(gè)IP,再訪問鏡像網站(zhàn)就變成 403 錯誤了:
不知道(dào)頁腳的友(yǒu)情鏈接是鏡像網站(zhàn)自己加的?還(hái)是賣程序的人(rén)強制(zhì)加的?
鏡像網站(zhàn)經常是會(huì)僞造或實時(shí)輪換IP地址的,如果屏蔽一個(gè)IP網站(zhàn)還(hái)能訪問,就再訪問翻頁 69 頁、 68 頁等等,找到更多(duō)IP。屏蔽也可(kě)以屏蔽IP段。我的經驗是,通(tōng)常鏡像網站(zhàn)不會(huì)使用超過 10 個(gè)IP地址。
當然也可(kě)以寫個(gè)簡單的腳本放自己網站(zhàn)上(shàng),比如www.seozac.com/mirror.php:
pecho $_SERVER[‘REMOTE_ADDR’];?
>
腳本唯一功能就是顯示訪問的IP,然後自己訪問一下小(xiǎo)偷鏡像網站(zhàn)的腳本網址,也就是www.bloody-thief.com/mirror.php,頁面上(shàng)就直接顯示鏡像網站(zhàn)訪問你(nǐ)服務器(qì)時(shí)的IP了。如果鏡像網站(zhàn)替換了URL,這個(gè)方法就不好用了。無論怎樣,日志(zhì)中是一定有(yǒu)的。
另外,發現鏡像網站(zhàn),可(kě)以向百度、域名注冊商、主機服務商投訴,要求關閉網站(zhàn)或删除頁面。投訴是否管用就是另一回事了,還(hái)是先做(zuò)好IP屏蔽和(hé)URL檢測。
作(zuò)者: Zac@SEO每天一貼版權屬于: 中新虛拟主機版權所有(yǒu)。轉載時(shí)必須以鏈接形式注明(míng)作(zuò)者和(hé)原始出處及本聲明(míng)。