通過分析網(wǎng)站口志Log文件可以看到用戶和搜索引擎的蛛訪問網(wǎng)站的行為數(shù)據(jù),這4讓我們分析出用戶和咖蛛對網(wǎng)站的偏好以及網(wǎng)站的健康情況,在網(wǎng)站日志分析中,我們析的是蜘蛛行為在如蛛爬取及收錄的過程中,搜索引擎會給特定權(quán)重網(wǎng)站分配相應(yīng)的資源量
友好型的網(wǎng)站應(yīng)該充分利用這些資源,讓如蛛可以迅速、準(zhǔn)確、全面地爬取有價值、用戶喜歡d容,而不浪費資源在無用的、訪問異常的內(nèi)容上。
在分析日志時,對于單日日志文件,需要外析的內(nèi)容有訪問次數(shù)、停留時間、抓取量進行抓取統(tǒng)計、頁面抓取統(tǒng)計、蜘蛛訪問IP, HTTP狀態(tài)碼、蜘蛛活躍時段、蜘蛛爬取路徑等,對日日志文件,需要分析的內(nèi)容有蜘蛛訪問次數(shù)趨勢、停留時間趨勢、整體抓取趨勢、各1承抓勢、抓取時間段、蜘蛛活躍周期等。
1,訪問次數(shù)、停留時間、抓取量從這三項數(shù)據(jù)中可以得知平均每次抓取頁面數(shù)、單頁抓取停留時間和平均每次停留時間平均每次抓取頁面數(shù)-總抓取量/訪問次數(shù)單頁抓取停留時間一每次停留時間/每次抓取時間
平均每次停留時間-總停留時間/訪問次數(shù)
從這些數(shù)據(jù)可以看出蜘蛛的活躍程度、親和程度、抓取深度等,總訪問次數(shù)、停留時間取量、平均抓取頁面、平均停留時間數(shù)值越大,表明網(wǎng)站越受搜索引擎喜歡,而單頁抓取停留時d表明網(wǎng)站頁面的訪問速度,時間越長,表明網(wǎng)站訪問速度越慢,對搜索引擎抓取收錄越不利,應(yīng)盡量提高網(wǎng)頁加載速度,減少單頁抓取停留時間,讓爬蟲資源更多地抓取收錄。
另外,根據(jù)這些數(shù)據(jù)可以統(tǒng)計出一段時間內(nèi)網(wǎng)站的整體趨勢表現(xiàn),如蜘蛛訪問次數(shù)趨勢留時間趨勢、抓取趨勢
2,目錄抓取統(tǒng)計通過日志分析可以看到網(wǎng)站哪些目錄受蜘蛛喜歡、抓取目錄深度、重要頁面目錄抓取狀況
無效頁面目錄抓取狀況等,通過對比目錄下頁面的抓取及收錄情況可以發(fā)現(xiàn)更多問題,對于重要錄,需要通過內(nèi)外調(diào)整增加權(quán)重及爬取,對于無效頁面,在robots.txt中進行屏蔽。
另外,通過多日日志統(tǒng)計可以看到站內(nèi)外行為給目錄帶來的效果、優(yōu)化是否合理,是否達(dá)了預(yù)期效果,對于同一目錄,長期來看,可以看到該目錄下頁面的表現(xiàn),根據(jù)行為推測表現(xiàn)的刷3,頁面抓取
在網(wǎng)站日志分析中,我們可以看到具體被蜘蛛爬取的頁面,在這些頁面中,我們可以分t旅爬取了哪些需要被禁止爬取的頁面、爬取了哪些無收錄價值的頁面、爬取了哪些重復(fù)頁面
本文地址:http://m.heisem.cn/wangzhanjianshe//9295.html