奇米色99欧美一区二区,久久精品人妻系列青青

網(wǎng)頁的URL

日期 : 2020-01-03 20:20:02

在這個過程中，我們看到了兩個“網(wǎng)頁”.第一個“網(wǎng)頁”指的是剛才搜索引擎已經(jīng)收染的URL資源(即搜索蜘蛛抓取的原始頁面)，第二個“網(wǎng)頁”指的是搜索引擎對關(guān)鍵問進行重機之后所對應(yīng)的網(wǎng)頁。搜索引擎對頁面的分析山該原始頁面正式開始。

●第一步:提取正文信息

這里所提取的正文信息除了包含頁面內(nèi)容外，還包含頁面的頭部標(biāo)簽信息(Thle Koywods.Description)等。

第二步:分詞/拆詞

提取完信息后，搜索引擎按照機械分詞法和統(tǒng)計分詞法將正文信息切分為若干關(guān)鍵詞，這些關(guān)鍵詞組成了關(guān)鍵詞列表。我們大家在搜索引擎里查找內(nèi)容時往往會輸入關(guān)鍵詞查找，這里搜索引擎的工作就是按照一定的規(guī)則將內(nèi) 容劃分為詞，以便以后大家搜索。

●第三步:建立關(guān)鍵字索引

上一步搜索引擎已經(jīng)將正文內(nèi)容切分為了若干關(guān)鍵詞，這些關(guān)鍵詞出現(xiàn)的位置、頻率等是不同的，在這一步，搜索引擎會將關(guān)鍵詞逐-記錄、歸類、建立索引，比如關(guān)鍵詞出現(xiàn)的頻率(建議2% 8%是比較合理的)。

第四步:關(guān)鍵詞重組

搜索引擎為頁面關(guān)鍵詞建立索引后，再將這些關(guān)鍵詞重新組合，以關(guān)鍵詞的形式重新組建一個新的網(wǎng)頁，這個網(wǎng)頁上的關(guān)鍵詞是唯一的，全部不重復(fù)。比如，我們剛才在第三步時，A關(guān)鍵詞出現(xiàn)了三次，在第四步，我們只記錄A關(guān)鍵詞1次，在重組網(wǎng)頁后，A關(guān)鍵詞再無重復(fù)。

至此，搜索引擎對頁面的分析完成，在這一環(huán)節(jié)，搜索引擎完成了對頁面正文信息的提取、關(guān)鍵詞的切分、關(guān)鍵詞的索引以及搜索引擎角度上的網(wǎng)頁重組。