信息分析
目的是确定輸入系統的信息條目的格式和内容,并為建立索引作準備。一次信息檢索系統用于确定邏輯記錄的格式和記錄關鍵字,或記錄之間的關系;二次信息檢索系統用于濃縮原始信息,又稱作标引。這相當于編制題錄或文摘,即找出标識原始信息的一組關鍵詞(稱作主題詞或檢索詞),從而産生一部檢索詞典。在詞典中還可以規定同義詞、近義詞關系和各詞語之間的層次關系。标引工作的一部分可由計算機自動完成。例如,利用題内關鍵詞索引或頻率統計法等技術從原始信息中抽取出關鍵詞。
信息存儲
目的是建立信息庫,以備檢索。為了便于查找,需要合理組織信息條目,可以按文件形式組織,也可以按數據庫形式組織。信息檢索系統常用的文件組織形式有:順序文件、索引順序文件、倒排文件和聚類文件,其中用得較多的是倒排文件和聚類文件。
倒排文件對每個信息條目給出一個表示主要屬性的唯一的關鍵詞,稱主關鍵詞。所有主關鍵詞和相應信息條目在文件中的地址構成一個索引,稱為主索引。系統還給出允許用戶檢索的信息條目中的次要屬性,稱為次關鍵詞。次關鍵詞不是唯一的。通過在每個次關鍵詞後面列出出現該屬性的信息條目的主關鍵詞而構成另一種形式的索引,稱為次索引。
從主關鍵詞查主索引可以找到信息條目。從次關鍵詞查次索引可以找到若幹主關鍵詞,系統從主索引可以找出若幹有關的信息條目。在一次檢索提問中要查找的索引部分是很小的,所以倒排文件結構的查找時間較短。
聚類文件是通過分析信息條目之間的相似性來組織的。檢索時,系統查找出與提問關鍵詞有相似性的聚集類,聚類文件結構特别适合于文獻檢索的情況。
系統維護
系統提供一組實用程序來進行裝入信息的格式轉換、信息文件的初始化和故障後系統的重新運行等一般性服務。二次信息檢索系統還提供檢索詞典維護程序,以便能增加、删除、修改和打印出檢索詞。
保密性
計算機信息檢索系統的保密性是通過對信息條目的存取控制機構來實現的。對于以文件系統為基礎的信息檢索系統,存取控制一般隻能在文件一級,即通過在打開文件時核對口令來控制非授權的用戶檢索信息。對于以數據庫技術為基礎的檢索系統,存取控制可以在文件、記錄,甚至在信息條目中某信息項一級,既可以通過核對口令方式,也可以采取調用用戶編寫的編碼、譯碼子程序的方式阻止非授權的用戶調用保密的信息。
可靠性
計算機信息檢索系統的可靠性與計算機系統的可靠性密切相關。它依賴于計算機系統硬件的可靠性、操作系統的故障恢複機構、數據庫管理系統的恢複機構和應用軟件采取的故障處理措施。任何計算機信息檢索系統都不能保證信息不受到破壞,但是它必須具有從破壞中得以恢複的能力。
效能評價
計算機信息檢索系統的效能通常根據漏檢索、誤檢率、檢全率、檢準率和響應時間(對聯機檢索)等來衡量。關鍵詞本身錯誤或使用的查找算法不對會引起漏檢。關鍵詞的二義性會造成誤檢。檢全率和檢準率主要針對二次信息檢索系統而言的。檢全率指檢出的相關信息條目數與信息庫中的相關條目數之比。檢準率指檢出的相關條目數與所有檢出的條目數之比。這二者是相互制約的。一般認為一個系統檢全率在60%~70%,檢準率在40%~50%即能滿足需要。響應時間的快慢不僅與軟件設計的好壞有關,而且與硬件的性能有關。
應用範圍
計算機信息檢索最初用于圖書、文獻檢索方面,後已用在軍事、工業、醫療、航空、政府機關等各個方面。有的隻作信息檢索用,有的則是将信息檢索技術應用在其他綜合的管理信息系統之中,如用于輔助決策的軍事情報檢索系統;航空公司自動訂票系統,醫療情報系統(包括病曆管理、預約登記、通知、病名檢索、病床管理等);旅館床位管理系統;檢索型的輔助設計系統等。此外,政府部門或企業的檔案管理、科研或工程項目管理、基本建設投資管理等都可應用信息檢索技術。



















