虚拟联合目录系统中
下载后可任意编辑 虛擬聯合目錄系統中 擁有共同結構之網頁文件資料萃取 下载后可任意编辑 曾志軒1 黃夙賢1 Chih-Hsuan Tseng1 Su-Shang Huang1 1國立交通大學資訊科學所 {chtseng, sshuang, wpyang} cis.nctu.edu.tw 柯皓仁2 楊維邦1 Hao-Ren Ke2 Wei-Pang Yang1 2國立交通大學圖書館 clavenlib.nctu.edu.tw 下载后可任意编辑 摘要 虛擬聯合目錄系統是一個從分散式的圖書資訊館藏查詢系統中收集並整合圖書目錄的系統。在虛擬聯合目錄建置的過程中,有些圖書資訊館藏查詢系統並不允許直接去擷取底層的資料庫,而僅提供圖書資訊館藏查詢系統所產生出來的網頁資料。這些由查詢系統所產生的網頁資料通常擁有共同結構網頁文件的特性,而傳統的資訊擷取方式並沒有辦法從擁有共同結構之網頁文件萃取資料。為了讓虛擬聯合目錄系統從個別的圖書資訊館藏查詢系統傳回的網頁中萃取資料,本篇論文提出了一個 Level-ID 的方法。本文所提出的 Level-ID演算法分配每個關鍵元素唯一的 Level ID,並由使用者標示欲萃取資料的Level ID以及所代表的意義,並將資料欄位存成結構標記檔。根據結構標記檔系統就可用來萃取擁有共同結構文件之資料。在這些資料萃取的過程中,所有的詮釋資料都以詮釋資料描述語言 Metadata Modeling Language 來描述與儲存,以達成資料交換及資料傳遞的一致性。最後本論文並驗證Level-ID的方法在交通大學虛擬聯合目錄系統 VUCSNCTU 中的可行性。 關鍵詞資料萃取、結構化文件、共同結構、中介資料、虛擬聯合目錄系統 1. 簡介 由於數位圖書館系統與網際網路的迅速發展,人們可以更方便地從網路上取得資料,只要連上各個數位化圖書館的檢索網站,就可以填寫檢索字串來尋找我們欲取得的資料。但是若我們要尋找的資料不存在於該網站,則必須連線到其他網站查詢。然而並不是每個使用者都有能力找到解答,多數的使用者根本不知道欲尋找的資料究竟是位於哪一個數位圖書館,這將會造成使用者的困擾。有鑑於此,虛擬聯合目錄系統提供從分散式的數位圖書資訊環境中收集並整合圖書目錄的能力。在虛擬聯合目錄建置的過程中,由於智慧財產權以及資訊安全等因素的考慮,導致並不是所有的數位圖書館皆允許程式設計者直接去擷取底層的資料庫。而程式設計者所能擁有的資源,則是各個圖書館所提供的圖書目錄查詢系統。各個圖書館所提供的圖書目錄查詢系統所產生出來的網頁資料通常擁有結構化文件的特性,這提供了我們從共同結構網頁文件擷取資訊的契機。 傳統的資訊擷取技術,並沒有辦法從文章中擷取結構化資訊。於是許多的讨论人員都致力在結構化文件的相關讨论 [1]。所謂的結構化文件就是把文章結構包含在文件裡面的文件 [8],通常這類型的文件是由標籤語言如XML、SGML或HTML所描述而成。擁有文章結構特性的文件允許我們擷取到更細部的結構資料,而不僅僅只能擷取到文件所呈現的文字內容 Content。 從結構化的文件中擷取資料和從資料庫中擷取有著相當大的不同,資料庫擁有表格結構 Schema,透過表格結構便可以直接從已定義好的表格中擷取出資料。但結構畫文件並沒有類似表格結構的概念,因此我們必須先對結構化文件的結構作分析,然後才能對文件作資料萃取。在過去的讨论中,已經有很多有效率的索引方法及結構化文件的資料擷取方法被提出 [3, 5, 8]。在 [5] 這篇論文中,使用了識別碼 UID--Unique element Identifier 和k-ary tree來減少建置索引時所必須佔用的儲存空間。UID的設計是用來描述文章結構的資訊,而k-ary tree則是用來快速地搜尋元素 Element 儲存位置並便於存取各元素。在 [8] 這篇論文中將UID的概念擴充為GID General element Identifier,其目的在於支援多種不同型態的結構化文件,此篇論文也提出了一個名為 BUS Bottom Up Scheme 的設計模組來整合索引及檢索的效能評估,並驗證了該方法的可行性與效率。在 [3] 這篇論文中則使用了 SCL Simple Concordance List 來模組化結構化文件,並支援多種不同層次的檢索。SCL 利用每個元素與內容出現的位置來做為其識別碼,不但簡單也提供了夠充分的檢索層次給使用者。 綜觀以上的論文,不難發現雖然已有很多關於結構化文件資料擷取的讨论,但卻很少有人從事於擁有共同結構之網頁文件的資料萃取的讨论。對於一個欲整合多個數位圖書館的系統而言,這是必要的。在交通大學圖書館虛擬聯合目錄系統 VUCSNCTU - Virtual Union Catalog System in NCTU 計畫中,我們試著提出一個新的系統架構,利用結構化文件的特性來幫助我們從各個不同數位圖書館傳回的檢索結果作資料萃取。並提供單一的介面讓使用者只需要在VUCS上面做檢索便可獲得多個不同數位圖書館的館藏資料,而且個別的數位圖書館只需要提供其架構在 WWW 上的資訊查詢系統即可,不需要開放資料庫權限。如此便可達到我們欲整合各個數位圖書資訊館藏的目的。 圖表一、交通大學虛擬聯合目錄的系統架構 在這樣的前提下,為了提供一個方法允許系統直接從數位圖書館檢索結果的網頁中直接萃取資料,我們提出了 Level-ID 的演算法以幫助我們從擁有共同結構的網頁文件中萃取出使用者感興趣的資料。所謂擁有共同結構的網頁文件,指的就是一個網頁文件內,擁有同樣語意或內容的文字都以相同的結構包起來,這樣的文件必須經過事先的分析與整理,然後才可以擷取出有意義的資料。此類文件通常是由網頁應用程式所自動產生出來的,因此只要可以正確地分析出其共同結構,就可以快速地擷取使用者感興趣的資料。舉例來說大部分的圖書館館藏檢索系統會根據不同的檢索字串而傳回不同的結果,但是這些不同的結果都是用同樣的結構與標籤語言來描述,也許是用 HTML 的表格標籤描述,也可能是由 XML 描述而成,只要我們能掌握並分析出其文件結構,就可以很容易地根據分析出來的結構而擷取出所有有意義的資料。本文的目的就是要分析一個網頁文件內重複出現的共同結構並擷取資料,我們提出了Level-ID的演算法來分配不同的Level-ID給每一個關鍵元素,並標示我們想要萃取資料的資料欄位以存成結構標記檔,最後根據記錄下來的結構標記檔以萃取出被嵌入在共同結構中的資料。在分析文件的過程中,我們也利用MML Metadata Modeling Language [4] 來描述分析出來的共同結構及最後萃取結果,一旦我們將共同結構分析出來並利用MML描述,便可以很容易地萃取出含有同樣結構的文件資料了 本文各部分內容分述如下第二部分介紹虛擬聯合目錄系統的設計理念與系統特性;第三部分介紹從擁有共同結構之網頁文件中萃取資料的運作流程與架構,也一併描述我們所提