網(wǎng)頁的URL
日期 : 2020-01-03 20:20:02
在這個過程中,我們看到了兩個“網(wǎng)頁”.第一個“網(wǎng)頁”指的是剛才搜索引擎已經(jīng)收染的URL資源(即搜索蜘蛛抓取的原始頁面),第二個“網(wǎng)頁”指的是搜索引擎對關(guān)鍵問進行重機之后所對應(yīng)的網(wǎng)頁。搜索引擎對頁面的分析山該原始頁面正式開始。
●第一步:提取正文信息
這里所提取的正文信息除了包含頁面內(nèi)容外,還包含頁面的頭部標(biāo)簽信息(Thle Koywods.Description)等。
第二步:分詞/拆詞
提取完信息后,搜索引擎按照機械分詞法和統(tǒng)計分詞法將正文信息切分為若干關(guān)鍵詞,這些關(guān)鍵詞組成了關(guān)鍵詞列表。我們大家在搜索引擎里查找內(nèi)容時往往會輸入關(guān)鍵詞查找,這里搜索引擎的工作就是按照一定的規(guī)則將內(nèi) 容劃分為詞,以便以后大家搜索。
●第三步:建立關(guān)鍵字索引
上一步搜索引擎已經(jīng)將正文內(nèi)容切分為了若干關(guān)鍵詞,這些關(guān)鍵詞出現(xiàn)的位置、頻率等是不同的,在這一步,搜索引擎會將關(guān)鍵詞逐-記錄、歸類、建立索引,比如關(guān)鍵詞出現(xiàn)的頻率(建議2% 8%是比較合理的)。
第四步:關(guān)鍵詞重組
搜索引擎為頁面關(guān)鍵詞建立索引后,再將這些關(guān)鍵詞重新組合,以關(guān)鍵詞的形式重新組建一個新的網(wǎng)頁,這個網(wǎng)頁上的關(guān)鍵詞是唯一的,全部不重復(fù)。比如,我們剛才在第三步時,A關(guān)鍵詞出現(xiàn)了三次,在第四步,我們只記錄A關(guān)鍵詞1次,在重組網(wǎng)頁后,A關(guān)鍵詞再無重復(fù)。
至此,搜索引擎對頁面的分析完成,在這一環(huán)節(jié), 搜索引擎完成了對頁面正文信息的提取、關(guān)鍵詞的切分、關(guān)鍵詞的索引以及搜索引擎角度上的網(wǎng)頁重組。
頁面排序
前面搜索引事完成了對頁面的分析,將頁面以唯關(guān)鍵詞的形式進行了重新組合。 接下來進入頁面排序的環(huán)節(jié)。頁面持序的環(huán)節(jié)實際上是由用戶配合來完成的,當(dāng)用戶在搜索引擎中輸入關(guān)鍵
提索引基便開始了頁面排序的工作。我們知道,任意輸入一個關(guān)鍵河就可以在搜索