正向索引可以簡(jiǎn)稱(chēng)為索引。
索引就是關(guān)鍵詞與網(wǎng)頁(yè)文件之間的一種對(duì)應(yīng)關(guān)系。所以就存在兩種索引:正向索引和倒排索引。我們知道搜索引擎中使用的是倒排索引,有不少朋友并不理解什么叫倒排索引。這里先來(lái)介紹—下正向索引。當(dāng)用戶(hù)進(jìn)行査詢(xún)時(shí),如果對(duì)本地文件全面掃描用戶(hù)所提交的關(guān)鍵詞,"查詢(xún)"的工作量就太大了,而且也是很消耗服務(wù)器資源的,所以搜索引攀會(huì)把已經(jīng)處理過(guò)的網(wǎng)頁(yè)先進(jìn)行索引,放到數(shù)據(jù)庫(kù)中等待網(wǎng)民的搜索査詢(xún)請(qǐng)求。
一個(gè)網(wǎng)頁(yè)被搜索引擎經(jīng)過(guò)以上處理后,就只剩下能夠體現(xiàn)網(wǎng)頁(yè)主體內(nèi)容的文本了,此時(shí)就可以對(duì)該網(wǎng)頁(yè)進(jìn)行索引了。正向索引指的是文件對(duì)應(yīng)關(guān)鍵詞的形式
正向索引是以關(guān)鍵字為主碼,查詢(xún)時(shí)需要遍歷每一個(gè)文件。每個(gè)文件都對(duì)應(yīng)一個(gè)文件ID,文件內(nèi)容被表示為一串關(guān)鍵詞的集合。實(shí)際上在搜索引擎索引庫(kù)中,關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞ID。這樣的數(shù)據(jù)結(jié)構(gòu)就稱(chēng)為正向索引。