-
圖書數字化
我(wo)公(gong)司(si)和(he)多(duo)家(jia)大(da)專(zhuan)院(yuan)校(xiao)的(de)圖(tu)書(shu)館(guan)有(you)過(guo)多(duo)次(ci)成(cheng)功(gong)的(de)合(he)作(zuo)。在(zai)此(ci)基(ji)礎(chu)上(shang),我(wo)們(men)充(chong)分(fen)理(li)解(jie)圖(tu)書(shu)數(shu)字(zi)化(hua)對(dui)各(ge)項(xiang)圖(tu)書(shu)建(jian)設(she)的(de)重(zhong)要(yao)意(yi)義(yi),同(tong)時(shi)我(wo)們(men)也(ye)非(fei)常(chang)希(xi)望(wang)能(neng)與(yu)各(ge)單(dan)位(wei)在(zai)信(xin)息(xi)化(hua)建(jian)設(she)方(fang)麵(mian)建(jian)立(li)長(chang)期(qi)的(de)合(he)作(zuo)關(guan)係(xi)。
紙質圖書數字化具有以下優點: (1)體積小、存貯密度高、信息量大。如1張光盤可存儲1千兆字節, 相當於5億多漢字。(2)傳播範圍廣。數字化信息可以通過網絡不受時間和空間限製地進行傳播。(3)利用率高。數字化信息可以長期反複利用,不存在缺損問題,而且眾多用戶可同時利用相同的信息。(4)檢索方便快捷。數字化信息資源一般都配有檢索軟件, 用戶可進行多途徑檢索, 快速地獲取所需的文獻信息。(5)保存時間長。由於紙質文獻難以長久保存。滿足多層次、多樣性的用戶需求,使寶貴的海量數據資源最大限度地發揮效益。適合於圖書館、出版社、期刊雜誌、各類企事業單位以及個人用戶。
-
圖書文獻數字化的種類 資料數字化根據檢索和利用需求,大概分為以下幾個種類:
★第一類 全文圖像化,有簡單的目錄索引
這種類型的資料數字化,僅僅是將紙質的資料利用掃描儀掃描成圖像文件,並進行簡單的編目,提供目錄索引,而不做文字的識別。
這種電子資料的好處在於投資小,每單位的價格最便宜;其缺點是沒有全文檢索功能,隻能為讀者提供簡單的索引查詢,圖像文件較大導致瀏覽速度較慢。
★第二類 全文文本化,可全文檢索
這種類型的資料數字化,全部利用人工錄入,建立全文文本化的電子資料,可以提供全文檢索。
其優點是占用存儲空間較小,可實現全文檢索,瀏覽傳輸速度快;其缺點是未經過格式化,沒有版麵信息,讀者閱覽到的是單純文本,單位價格較高。
★第三類 全文圖像文本化,可全文檢索
這種類型的資料數字化,在提供紙質資料的掃描圖像文件後,還進行了人工錄入或者OCR識別,為圖書建立了全文文本,因此可以提供全文檢索。
這(zhe)種(zhong)類(lei)型(xing),實(shi)際(ji)上(shang)是(shi)利(li)用(yong)雙(shuang)層(ceng)文(wen)件(jian)的(de)形(xing)式(shi)向(xiang)讀(du)者(zhe)展(zhan)示(shi)電(dian)子(zi)資(zi)料(liao)的(de)。它(ta)分(fen)為(wei)上(shang)下(xia)兩(liang)層(ceng),上(shang)麵(mian)的(de)是(shi)圖(tu)像(xiang)層(ceng),下(xia)麵(mian)的(de)是(shi)文(wen)本(ben)層(ceng),但(dan)是(shi)這(zhe)種(zhong)文(wen)本(ben)沒(mei)有(you)經(jing)過(guo)排(pai)版(ban),它(ta)是(shi)無(wu)格(ge)式(shi)混(hun)亂(luan)的(de)。讀(du)者(zhe)看(kan)到(dao)的(de)是(shi)上(shang)層(ceng)的(de)圖(tu)像(xiang),而(er)全(quan)文(wen)檢(jian)索(suo)時(shi),可(ke)以(yi)使(shi)用(yong)下(xia)層(ceng)的(de)文(wen)本(ben)。這(zhe)種(zhong)類(lei)型(xing)的(de)好(hao)處(chu)在(zai)於(yu)單(dan)位(wei)價(jia)格(ge)較(jiao)便(bian)宜(yi),但(dan)是(shi)由(you)於(yu)在(zai)讀(du)者(zhe)瀏(liu)覽(lan)時(shi)要(yao)同(tong)時(shi)傳(chuan)輸(shu)圖(tu)像(xiang)文(wen)件(jian)和(he)文(wen)本(ben)文(wen)件(jian),其(qi)瀏(liu)覽(lan)速(su)度(du)最(zui)慢(man)。
★第四類 基於原版原樣的,可全文檢索的
這種類型的資料數字化,利用掃描儀將紙質資料掃描加工成圖像文件,再通過OCR工廠,識別成能夠保留原始版麵樣式的文本化的文件(如:rtf、pdf格式),它既保留了版麵的信息,又是全文文本化的,可以提供全文的檢索。
這種類型的優點在於支持全文檢索,占用存儲空間較少,由於是文本格式的文件,電子資料質量(放大、縮小是不失真)和瀏覽速度都很好;其缺點是價格較高。
