Một số khái niệm
Một ontology thường bao gồm 02 thành phần: mô hình dữ liệu (the data model) và cơ sở tri thức (the knowledge base). Cần phân biệt rõ được 02 thành phần này trong một ontology.
Mô hình dữ liệu ontology (the ontology data model) bao gồm các lớp (khái niệm) và các quan hệ tạo nên một khái niệm về một miền (domain).
Cơ sở tri thức (the knowledge base) chứa nội dung của ontology, bao gồm các thể hiện lớp và thể hiện quan hệ nằm phía dưới mô hình dữ liệu ontology.
Ontology population là việc trích xuất nội dung của cơ sở tri thức ontology tự động hay bán tự động từ các nguồn tài nguyên thông tin sẵn có như là WWW. Ontology population bao gồm việc trích xuất thể hiện của các lớp và trích xuất thể hiện của các quan hệ.
Ontology Learning bao gồm việc học các lớp ontology trên một miền, phát hiện cấu trúc cây phân cấp lớp bằng cách nhận diện các quan hệ phân loại (taxonomic relations) và học các quan hệ khác giữa các lớp.
Trích xuất thể hiện quan hệ (Relation Instantiation) là việc trích xuất tự động các thể hiện của các quan hệ đã được định nghĩa trong mô hình dữ liệu ontology.
Trong bài viết này, chúng tôi mô tả một phương pháp trích xuất thể hiện quan hệ sử dụng công cụ phân tích văn bản (text analysis tool) mà nó chứa các lớp ngữ nghĩa trong chức năng tìm kiếm mẫu của nó. Chúng tôi đã làm một số thử nghiệm trong các miền (domain) khác nhau sử dụng các mẫu được sinh ra hàng loạt và báo cáo quá trình thực hiện của các mẫu này. Sử dụng nhiều hơn các mẫu tổng quát dẫn đến kết quả rằng có nhiều thông tin hơn từ các nguồn khác nhau có thể được xem xét, vì vậy việc nguyên nhân của việc giảm độ chính xác là do không sử dụng nhiều hơn các mẫu cụ thể (specific patterns). Chúng tôi đánh giá lại phương pháp này bằng cách sử dụng một số các công việc trích xuất quan hệ trong một số lĩnh vực khác nhau, bao gồm lĩnh vực di sản văn hóa.
Một ontology thường bao gồm 02 thành phần: mô hình dữ liệu (the data model) và cơ sở tri thức (the knowledge base). Cần phân biệt rõ được 02 thành phần này trong một ontology.
Mô hình dữ liệu ontology (the ontology data model) bao gồm các lớp (khái niệm) và các quan hệ tạo nên một khái niệm về một miền (domain).
Cơ sở tri thức (the knowledge base) chứa nội dung của ontology, bao gồm các thể hiện lớp và thể hiện quan hệ nằm phía dưới mô hình dữ liệu ontology.
Ontology population là việc trích xuất nội dung của cơ sở tri thức ontology tự động hay bán tự động từ các nguồn tài nguyên thông tin sẵn có như là WWW. Ontology population bao gồm việc trích xuất thể hiện của các lớp và trích xuất thể hiện của các quan hệ.
Ontology Learning bao gồm việc học các lớp ontology trên một miền, phát hiện cấu trúc cây phân cấp lớp bằng cách nhận diện các quan hệ phân loại (taxonomic relations) và học các quan hệ khác giữa các lớp.
Trích xuất thể hiện quan hệ (Relation Instantiation) là việc trích xuất tự động các thể hiện của các quan hệ đã được định nghĩa trong mô hình dữ liệu ontology.
Trong bài viết này, chúng tôi mô tả một phương pháp trích xuất thể hiện quan hệ sử dụng công cụ phân tích văn bản (text analysis tool) mà nó chứa các lớp ngữ nghĩa trong chức năng tìm kiếm mẫu của nó. Chúng tôi đã làm một số thử nghiệm trong các miền (domain) khác nhau sử dụng các mẫu được sinh ra hàng loạt và báo cáo quá trình thực hiện của các mẫu này. Sử dụng nhiều hơn các mẫu tổng quát dẫn đến kết quả rằng có nhiều thông tin hơn từ các nguồn khác nhau có thể được xem xét, vì vậy việc nguyên nhân của việc giảm độ chính xác là do không sử dụng nhiều hơn các mẫu cụ thể (specific patterns). Chúng tôi đánh giá lại phương pháp này bằng cách sử dụng một số các công việc trích xuất quan hệ trong một số lĩnh vực khác nhau, bao gồm lĩnh vực di sản văn hóa.
4.1 Giới thiệu
Trong các nghiên cứu trước, chúng tôi đã giới thiệu 02 phương pháp làm giàu ontology dựa trên việc tận dụng sự dư thừa thông tin trên Web. Các phương pháp này đã được sử dụng trong các công việc trích xuất quan hệ cụ thể (trích xuất các quan hệ 1 – nhiều, và trích xuất các quan hệ theo thời gian). Trong bài viết này, chúng tôi giới thiệu một phương pháp trích xuất thể hiện của các quan hệ mà nó được thiết kế đặc biệt cho việc trích xuất quan hệ để tìm các thể hiện của các quan hệ 1 – nhiều. Phương pháp mà chúng tôi mô tả ở đây có thể trích xuất các thể hiện quan hệ trên một khối lượng lớn các thể hiện cả bên phía tay trái và tay phải của quan hệ, trong khi đó các phương pháp trích xuất quan hệ ở các nghiên cứu trước chỉ có thể trích xuất các thể hiện quan hệ trong một tập nhỏ các thể hiện phía bên tay trái. Phương pháp này sử dụng các mẫu trích xuất thủ công (hand-crafted extraction patterns) và kết hợp chặt chẽ với việc sử dụng công cụ phân tích văn bản tOKo [Anjewierden, 2006], và các khả năng tìm kiếm mẫu mạnh mẽ của nó từ một kho dữ liệu tĩnh. Mặc dù các phần của quá trình trích xuất là tự động, nhưng một số bước cần làm một cách thủ công, đặc biệt là quá trình xây dựng mẫu. Trong nghiên cứu này, chúng tôi sẽ mô tả các bước tự động của phương pháp và đưa ra các hướng dẫn đối với các bước mà cần tương tác của con người là các chuyên gia của các lĩnh vực, công việc cụ thể.
Sự khác nhau chính với phương pháp trích xuất quan hệ ở chương 2 là với mỗi công việc trích xuất quan hệ, chúng tôi sử dụng một kho dữ liệu đơn giản, cố định từ đó chúng ta có thể trích xuất các thể hiện (manifestations) của một thể hiện quan hệ sử dụng một ngôn ngữ mẫu. Việc sử dụng một kho dữ liệu đơn giản, hữu hạn cho công việc trích xuất quan hệ có bất lợi là tần suất xuất hiện dạng văn bản của một thể hiện quan hệ thấp là nguyên nhân làm chậm quá trình phân tích dữ liệu (data sparseness). Việc sử dụng các mẫu đặc trưng miền (domainspecific patterns) sẽ cho kết quả tốt hơn phương pháp độc lập với miền trong Chương 2. Việc sử dụng các mẫu được xây dựng thủ công đặc trưng cho miền cũng có nghĩa rằng phương pháp này cần sự tham gia của con người nhiều hơn phương pháp trình bày trong Chương 2.
Ưu điểm chính của việc sử dụng kho dữ liệu offline (offline corpus) là nó cho phép chúng ta tìm các quan hệ cho nhiều thể hiện trong một lần thực thi bởi vì chúng ta không cần truy vấn thêm một máy tìm kiếm bên ngoài cho mỗi thể hiện quan hệ này. Các phương pháp yêu cầu một truy vấn độc lập tới máy tìm kiếm đối với mỗi thể hiện đơn giản như là phương pháp dư thừa (redundancy method) trong Chương 2 hoặc các phương pháp dựa trên khoảng cách google chuẩn [Cilibrasi and Vitanyi, 2004] cần nhiều truy vấn máy tìm kiếm đối với cơ sở tri thức lớn hơn. Đối với các phương pháp này, số lượng truy vấn cần phải đưa vào máy tìm kiếm để trích xuất các quan hệ giữa tập các thể hiện phía tay trái (kích thước N) và tập các thể hiện phía tay phải (kích thước M) là N*M [Geleijnse et al., 2006]. Điều này làm cho chúng ít phù hợp hơn đối với các cơ sở tri thức lớn hơn bởi vì thời gian và giới hạn truy cập từ các máy chủ tìm kiếm. Các ontology có kích thước lớn hơn phù hợp hơn cho việc làm giàu tự động hơn các ontology có kích thước nhỏ hơn, bởi vì các phương pháp trước đây cần nhiều việc làm giàu thủ công. Do đó, cần phải nghiên cứu đưa ra các phương pháp có thể trích xuất các quan hệ mới cho một tập lớn các thể hiện.
So sánh với phương pháp trình bày trong Chương 2, chúng ta có thể nới lỏng một số giả thiết đã được trình bày trong Chương 2: giả sử rằng tất cả các phần tử của tất cả các lớp đã được biết và chúng ta cũng không giả sử rằng một tập hạt nhân là sẵn có. Thay vào đó chúng ta tin tưởng vào các mẫu mà đã được xây dựng thủ công. Cũng tương tự, không có các giới hạn trên lực lượng của quan hệ nơi mà đối với phương pháp trong Chương 2, thì một thể hiện đơn i phải có liên quan đến nhiều phần tử từ Ij (quan hệ 1 – nhiều), ở đây quan hệ cũng có thể là quan hệ 1-1, nơi mà một thể hiện i chỉ liên quan đến một thể hiện từ tập Ij. Giới hạn mà trong kho dữ liệu làm việc (working corpus) nhiều thể hiện của quan hệ đó cũng được nâng lên. Tuy nhiên, chúng tôi đưa ra giả thiết rằng trong kho dữ liệu làm việc (đã được trích xuất từ Web), một số các thể hiện quan hệ được biểu diễn.
Trong chương này, chúng tôi cũng sẽ giới thiệu cách mà các thể hiện quan hệ ứng viên có thể được lọc trong pha hậu xử lý. Trong pha này, tri thức nền tảng về miền và các nhiệm vụ cụ thể được xác định bằng tay và được sử dụng để kết hợp các thể hiện quan hệ ứng viên và lọc ra các thể hiện không đúng. Trong phần 4.2.3.3, chúng tôi sẽ mô tả một số các phương pháp hậu xử lý này. Trong phần 4.3, chúng tôi sẽ đưa ra một vài ví dụ lần lượt của cách thức mà các phương pháp hậu xử lý có thể được áp dụng.
Công việc trích xuất thông tin đã sử dụng rộng rãi các mẫu được xây dựng thủ công. Công việc làm giàu ontology là một phần công việc của việc trích xuất thông tin và có liên quan đến các phần công việc trích xuất thông tin khác như là: trả lời câu hỏi (Question Answering) hay nhận dạng thực thể tên (Named Entity Recognition). Trích xuất thông tin (Information Extraction) khác so với trích rút thông tin truyền thống (classical Information Retrieval). Trong trích rút thông tin truyền thống, một tập con các tài liệu mà trên đó chứa thông tin đích được biểu diễn như là kết quả cuối cùng. Trong trích rút thông tin, đầu ra là mẩu thông tin chính xác (thực thể, quan hệ, sự kiện) tự nó không cần ngữ cảnh xung quanh. Các mẩu thông tin này sau đó có thể được đưa ra đối với người dùng, được lưu trữ trong cơ sở tri thức, CSDL hay được xử lý ngay sau đó. Các phần công việc khác của trích xuất thông tin được định nghĩa bởi các ứng dụng cụ thể theo đó thông tin sẽ được trích xuất và định dạng mà thông tin cần trả về là gì. Đối với công việc trả lời câu hỏi, trích xuất thông tin được sử dụng để đưa ra câu trả lời đối với một câu hỏi theo ngôn ngữ tự nhiên. Trong phần việc nhận dạng thực thể tên, các thực thể và các sự kiện cụ thể (như là tên người, ngày sinh, vị trí) được xác định trong một tài liệu. Các loại thực thể mà có thể nhận dạng được là được xác định trước và thường độc lập miền. Trong việc làm giàu Ontology, đầu vào và đầu ra của việc trích xuất thông tin được định nghĩa bởi một ontology đầu vào và một cơ sở tri thức kết nối (connected knowledge base) và các mẩu thông tin nhận được sẽ được lưu trữ như các cấu trúc ontology (ontology constructs) như các lớp, quan hệ, thể hiện quan hệ. Ở đây, một ontology được sử dụng để nhận diện các thể hiện trong kho tài liệu và các kết quả của phương pháp trích xuất thông tin là các thể hiện quan hệ ontology ứng viên. Hơn nữa, chúng tôi sử dụng tri thức nền tảng từ ontology nguồn để cải tiến thêm các kết quả của việc trích xuất thông tin.
Ngôn ngữ mẫu của công cụ tOKo cho phép các mẫu suy luận gộp đến các lớp ngữ nghĩa. Ngôn ngữ này cho phép tạo ra các mẫu một cách hàng loạt (cf. [Califf and Mooney, 2003]). Trong chương này, chúng ta nghiên cứu cách thức sinh các mẫu ảnh hưởng đến thực thi của các mẫu này trong các công việc trích xuất thông tin.
Như trong trường hợp với các phương pháp đã được mô tả trong các chương trước, với phương pháp dựa trên mẫu này chúng ta có thể khai thác tính dư thừa thông tin trong kho dữ liệu văn bản. Việc này có thể thực hiện được bằng cách xây dựng nhiều hơn các mẫu tổng quát và sử dụng một ngưỡng (threshold) tần suất xuất hiện của các tập hợp từ được trích xuất để chọn ra được các thể hiện quan hệ ứng viên chính xác. Khi các mẫu cụ thể được sử dụng, chúng ta có thể mong đợi một kết quả với độ chính xác cao nhưng sai số (recall) tương ứng thấp. Hiển nhiên, điều này sẽ có ảnh hưởng tiêu cực đến sai số, nhưng nếu chúng ta tận dụng sự dư thừa các thể hiện quan hệ trong kho dữ liệu bằng việc đưa vào một ngưỡng tần suất xuất hiện của ghép nối mẫu (pattern matches), chúng ta có thể bù vào phần đã mất đi này cho độ chính xác. Đặc biệt, đối với các công việc trích xuất nơi mà sai số dự kiến là rất thấp, việc gia tăng sai số là rất có lợi nhằm tăng hiệu năng tổng thể khi mà nó được đo dưới dạng trung bình điều hòa (harmonic mean) của độ chính xác và sai số (F-measure). Trong các thử nghiệm được mô tả trong phần 4.3, chúng tôi sẽ chỉ ra rằng khi sử dụng nhiều hơn các mẫu tổng quát (general patterns), người sử dụng có thể chọn giữa sai số hoặc độ chính xác bằng cách hiệu chỉnh tham số ngưỡng. Tiếp theo, chúng tôi sẽ chỉ ra cách tận dụng độ dư thừa thông qua việc sử dụng nhiều hơn các mẫu tổng quát có thể cải tiến hiệu năng của phương pháp.
Trong phần tiếp theo, chúng tôi sẽ định nghĩa một loạt các công việc trích xuất thể hiện quan hệ mà phương pháp này có thể đã sử dụng. Chúng tôi cũng giới thiệu phương pháp làm giàu ontology, công cụ phân tích văn bản tOKo và ngôn ngữ mẫu mà chúng tôi đã sử dụng trong các thử nghiệm của mình. Các thử nghiệm này được mô tả trong phần 4.3.
4.2 Làm giàu ontology sử dụng mẫu
4.2.1 Định nghĩa bài toán
Chúng tôi sử dụng cùng một khái niệm của một ontology trong Chương 2, trong đó chúng ta phân biệt giữa mô hình dữ liệu ontology với các lớp và các quan hệ và cơ sở tri thức mà nó bao gồm cả thể hiện của lớp và thể hiện quan hệ. Chúng tôi định nghĩa việc làm giàu ontology như một công việc bổ sung tự động (hoặc bán tự động) cấu trúc ontology hoặc các thành phần của cơ sở tri thức vào ontology đã có từ trước (populated ontology). Các phần công việc của việc làm giàu ontology bao gồm khám phá cả thể hiện lớp và thể hiện quan hệ (làm giàu cơ sở tri thức). Trong chương này, chúng tôi sẽ tiếp tục tập trung các công việc sau đó, làm giàu từng phần của ontology có sẵn.
Chúng tôi định nghĩa lại một mô hình dữ liệu ontology như là tập các lớp có gán nhãn C1, ...., Cn, được phân cấp theo quan hệ lớp con. Các quan hệ giữa các lớp khác hơn với quan hệ lớp con cũng được định nghĩa (R: Cj x Cj). Chúng tôi nói về ontology đã được trích xuất (populated ontology), bên cạnh mô hình dữ liệu ontology, một cơ sở tri thức với cả các thể hiện của lớp và thể hiện quan hệ từ mô hình dữ liệu ontology cũng được giới thiệu.
Trong Chương 2, chúng tôi đã định nghĩa công việc trích xuất thể hiện quan hệ từ một kho dữ liệu như sau:
Cho 2 lớp Cj và Cj trong một ontology đã được trích xuất một phần (partly populated ontology), với tập các thể hiện Ii và Ij và cho một quan hệ R: Ci x Cj, hãy tìm một thể hiện i ∈ Ii sao cho tất cả các thể hiện j ∈ Ij có quan hệ R(i, j) trong kho dữ liệu.
Hơn nữa, chúng ta có lẽ biết hoặc không biết tất cả các phần tử của Ii và Ij. Trong chương này chúng ta sẽ thảo luận cả trong trường hợp khi mà chúng ta không biết được hết tất cả các phần tử của Ii hoặc Ij cũng như trường hợp khai phá các thể hiện mới của lớp Ci hoặc Cj. Trong trường hợp này, chúng tôi đề cập đến lớp chưa được khai phá hoặc lớp đã được khai phá một phần và công việc này cũng bao gồm bổ sung thể hiện của các lớp này.
Trong chương này, chúng tôi mo tả một phương pháp cho công việc này mà nó sử dụng một công cụ trích xuất thông tin mã nguồn mở, tOKo [Anjewierden, 2006] và ngôn ngữ mẫu mạnh của nó. Một số bình luận và kết luận cũng được đưa ra với các công cụ khác với các chức năng tìm mẫu có thể so sánh. Tuy nhiên, kết quả cụ thể phụ thuộc vào công cụ mà đã sử dụng.
4.2.2 Công cụ tOKo và ngôn ngữ mẫu
Đối với việc trích xuất thông tin dựa trên mẫu trong chương này, chúng tôi sử dụng công cụ tOKo. TOKo là một công cụ mã nguồn mở được thiết kế để duyệt và phân tích kho dữ liệu văn bản. Công cụ này có một số lượng lớn các chức năng phân tích văn bản tương tác mà có thể truy cập hoặc thông quan giao diện người dùng hoặc là thông qua bộ thư viện Prolog API. Công cụ tOKo cung cấp rất nhiều hỗ trợ cho kỹ thuật ontology. Nó tích hợp một trình biên tập ontology trong đó các thuật ngữ và khái niệm có thể được lưu trữ và thao tác. Công cụ này có thể được sử dụng để xây dựng ontology từ văn bản cũng như sử dụng để liên kết các ontology đã có từ một kho dữ liệu văn bản. Chức năng xử lý ngôn ngữ tự nhiên của các khái niệm và thuật ngữ (như là lỗi chính tả và viết tắt) được suy luận và lưu trữ trong công cụ này. Một lượng lớn các công việc phân tích văn bản được cài đặt trong công cụ tOKo, bao gồm tính toán tần suất xuất hiện của từ, xác định prefix/infix/suffix và phân tích ngôn ngữ tiếng Anh và tiếng Hà Lan. Các công việc trích xuất thông tin mức độ cao hơn như là nhận dạng thực thể tên và nhận dạng tên người cũng được cài đặt.
Công cụ tOKo cũng cung cấp một chức năng tìm kiếm mẫu rất mạnh. Chức năng tìm kiếm mẫu có thể sử dụng thông qua giao diện người dùng cũng như thông qua bộ thư viện Prolog API. Trong trường hợp sử dụng thông qua giao diện người dùng, các tập hợp từ từ kho dữ liệu mà nó phù hợp (so khớp - match) với các mẫu sẽ được hiển thị ra màn hình công cụ. Trong trường hợp sử dụng bộ thư viện Prolog API, các tập hợp từ kết quả tìm kiếm sẽ được lưu trữ như là các Prolog Facts và có thể được phân tích sau đó.
Để đơn giản một loạt các tìm kiếm mẫu mà cũng có thể bao gồm các khái niệm ontology, công cụ tOKo bao gồm ngôn ngữ mẫu riêng. Trong các phần dưới đây, chúng tôi sẽ giới thiệu một số các truy vấn mẫu và theo đó chúng tôi sẽ giới thiệu tổng quan về cú pháp và ngữ nghĩa của một số cấu trúc ngôn ngữ mẫu. Trong chương này, các mẫu được viết như sau: apple.
Trong các nghiên cứu trước, chúng tôi đã giới thiệu 02 phương pháp làm giàu ontology dựa trên việc tận dụng sự dư thừa thông tin trên Web. Các phương pháp này đã được sử dụng trong các công việc trích xuất quan hệ cụ thể (trích xuất các quan hệ 1 – nhiều, và trích xuất các quan hệ theo thời gian). Trong bài viết này, chúng tôi giới thiệu một phương pháp trích xuất thể hiện của các quan hệ mà nó được thiết kế đặc biệt cho việc trích xuất quan hệ để tìm các thể hiện của các quan hệ 1 – nhiều. Phương pháp mà chúng tôi mô tả ở đây có thể trích xuất các thể hiện quan hệ trên một khối lượng lớn các thể hiện cả bên phía tay trái và tay phải của quan hệ, trong khi đó các phương pháp trích xuất quan hệ ở các nghiên cứu trước chỉ có thể trích xuất các thể hiện quan hệ trong một tập nhỏ các thể hiện phía bên tay trái. Phương pháp này sử dụng các mẫu trích xuất thủ công (hand-crafted extraction patterns) và kết hợp chặt chẽ với việc sử dụng công cụ phân tích văn bản tOKo [Anjewierden, 2006], và các khả năng tìm kiếm mẫu mạnh mẽ của nó từ một kho dữ liệu tĩnh. Mặc dù các phần của quá trình trích xuất là tự động, nhưng một số bước cần làm một cách thủ công, đặc biệt là quá trình xây dựng mẫu. Trong nghiên cứu này, chúng tôi sẽ mô tả các bước tự động của phương pháp và đưa ra các hướng dẫn đối với các bước mà cần tương tác của con người là các chuyên gia của các lĩnh vực, công việc cụ thể.
Sự khác nhau chính với phương pháp trích xuất quan hệ ở chương 2 là với mỗi công việc trích xuất quan hệ, chúng tôi sử dụng một kho dữ liệu đơn giản, cố định từ đó chúng ta có thể trích xuất các thể hiện (manifestations) của một thể hiện quan hệ sử dụng một ngôn ngữ mẫu. Việc sử dụng một kho dữ liệu đơn giản, hữu hạn cho công việc trích xuất quan hệ có bất lợi là tần suất xuất hiện dạng văn bản của một thể hiện quan hệ thấp là nguyên nhân làm chậm quá trình phân tích dữ liệu (data sparseness). Việc sử dụng các mẫu đặc trưng miền (domainspecific patterns) sẽ cho kết quả tốt hơn phương pháp độc lập với miền trong Chương 2. Việc sử dụng các mẫu được xây dựng thủ công đặc trưng cho miền cũng có nghĩa rằng phương pháp này cần sự tham gia của con người nhiều hơn phương pháp trình bày trong Chương 2.
Ưu điểm chính của việc sử dụng kho dữ liệu offline (offline corpus) là nó cho phép chúng ta tìm các quan hệ cho nhiều thể hiện trong một lần thực thi bởi vì chúng ta không cần truy vấn thêm một máy tìm kiếm bên ngoài cho mỗi thể hiện quan hệ này. Các phương pháp yêu cầu một truy vấn độc lập tới máy tìm kiếm đối với mỗi thể hiện đơn giản như là phương pháp dư thừa (redundancy method) trong Chương 2 hoặc các phương pháp dựa trên khoảng cách google chuẩn [Cilibrasi and Vitanyi, 2004] cần nhiều truy vấn máy tìm kiếm đối với cơ sở tri thức lớn hơn. Đối với các phương pháp này, số lượng truy vấn cần phải đưa vào máy tìm kiếm để trích xuất các quan hệ giữa tập các thể hiện phía tay trái (kích thước N) và tập các thể hiện phía tay phải (kích thước M) là N*M [Geleijnse et al., 2006]. Điều này làm cho chúng ít phù hợp hơn đối với các cơ sở tri thức lớn hơn bởi vì thời gian và giới hạn truy cập từ các máy chủ tìm kiếm. Các ontology có kích thước lớn hơn phù hợp hơn cho việc làm giàu tự động hơn các ontology có kích thước nhỏ hơn, bởi vì các phương pháp trước đây cần nhiều việc làm giàu thủ công. Do đó, cần phải nghiên cứu đưa ra các phương pháp có thể trích xuất các quan hệ mới cho một tập lớn các thể hiện.
So sánh với phương pháp trình bày trong Chương 2, chúng ta có thể nới lỏng một số giả thiết đã được trình bày trong Chương 2: giả sử rằng tất cả các phần tử của tất cả các lớp đã được biết và chúng ta cũng không giả sử rằng một tập hạt nhân là sẵn có. Thay vào đó chúng ta tin tưởng vào các mẫu mà đã được xây dựng thủ công. Cũng tương tự, không có các giới hạn trên lực lượng của quan hệ nơi mà đối với phương pháp trong Chương 2, thì một thể hiện đơn i phải có liên quan đến nhiều phần tử từ Ij (quan hệ 1 – nhiều), ở đây quan hệ cũng có thể là quan hệ 1-1, nơi mà một thể hiện i chỉ liên quan đến một thể hiện từ tập Ij. Giới hạn mà trong kho dữ liệu làm việc (working corpus) nhiều thể hiện của quan hệ đó cũng được nâng lên. Tuy nhiên, chúng tôi đưa ra giả thiết rằng trong kho dữ liệu làm việc (đã được trích xuất từ Web), một số các thể hiện quan hệ được biểu diễn.
Trong chương này, chúng tôi cũng sẽ giới thiệu cách mà các thể hiện quan hệ ứng viên có thể được lọc trong pha hậu xử lý. Trong pha này, tri thức nền tảng về miền và các nhiệm vụ cụ thể được xác định bằng tay và được sử dụng để kết hợp các thể hiện quan hệ ứng viên và lọc ra các thể hiện không đúng. Trong phần 4.2.3.3, chúng tôi sẽ mô tả một số các phương pháp hậu xử lý này. Trong phần 4.3, chúng tôi sẽ đưa ra một vài ví dụ lần lượt của cách thức mà các phương pháp hậu xử lý có thể được áp dụng.
Công việc trích xuất thông tin đã sử dụng rộng rãi các mẫu được xây dựng thủ công. Công việc làm giàu ontology là một phần công việc của việc trích xuất thông tin và có liên quan đến các phần công việc trích xuất thông tin khác như là: trả lời câu hỏi (Question Answering) hay nhận dạng thực thể tên (Named Entity Recognition). Trích xuất thông tin (Information Extraction) khác so với trích rút thông tin truyền thống (classical Information Retrieval). Trong trích rút thông tin truyền thống, một tập con các tài liệu mà trên đó chứa thông tin đích được biểu diễn như là kết quả cuối cùng. Trong trích rút thông tin, đầu ra là mẩu thông tin chính xác (thực thể, quan hệ, sự kiện) tự nó không cần ngữ cảnh xung quanh. Các mẩu thông tin này sau đó có thể được đưa ra đối với người dùng, được lưu trữ trong cơ sở tri thức, CSDL hay được xử lý ngay sau đó. Các phần công việc khác của trích xuất thông tin được định nghĩa bởi các ứng dụng cụ thể theo đó thông tin sẽ được trích xuất và định dạng mà thông tin cần trả về là gì. Đối với công việc trả lời câu hỏi, trích xuất thông tin được sử dụng để đưa ra câu trả lời đối với một câu hỏi theo ngôn ngữ tự nhiên. Trong phần việc nhận dạng thực thể tên, các thực thể và các sự kiện cụ thể (như là tên người, ngày sinh, vị trí) được xác định trong một tài liệu. Các loại thực thể mà có thể nhận dạng được là được xác định trước và thường độc lập miền. Trong việc làm giàu Ontology, đầu vào và đầu ra của việc trích xuất thông tin được định nghĩa bởi một ontology đầu vào và một cơ sở tri thức kết nối (connected knowledge base) và các mẩu thông tin nhận được sẽ được lưu trữ như các cấu trúc ontology (ontology constructs) như các lớp, quan hệ, thể hiện quan hệ. Ở đây, một ontology được sử dụng để nhận diện các thể hiện trong kho tài liệu và các kết quả của phương pháp trích xuất thông tin là các thể hiện quan hệ ontology ứng viên. Hơn nữa, chúng tôi sử dụng tri thức nền tảng từ ontology nguồn để cải tiến thêm các kết quả của việc trích xuất thông tin.
Ngôn ngữ mẫu của công cụ tOKo cho phép các mẫu suy luận gộp đến các lớp ngữ nghĩa. Ngôn ngữ này cho phép tạo ra các mẫu một cách hàng loạt (cf. [Califf and Mooney, 2003]). Trong chương này, chúng ta nghiên cứu cách thức sinh các mẫu ảnh hưởng đến thực thi của các mẫu này trong các công việc trích xuất thông tin.
Như trong trường hợp với các phương pháp đã được mô tả trong các chương trước, với phương pháp dựa trên mẫu này chúng ta có thể khai thác tính dư thừa thông tin trong kho dữ liệu văn bản. Việc này có thể thực hiện được bằng cách xây dựng nhiều hơn các mẫu tổng quát và sử dụng một ngưỡng (threshold) tần suất xuất hiện của các tập hợp từ được trích xuất để chọn ra được các thể hiện quan hệ ứng viên chính xác. Khi các mẫu cụ thể được sử dụng, chúng ta có thể mong đợi một kết quả với độ chính xác cao nhưng sai số (recall) tương ứng thấp. Hiển nhiên, điều này sẽ có ảnh hưởng tiêu cực đến sai số, nhưng nếu chúng ta tận dụng sự dư thừa các thể hiện quan hệ trong kho dữ liệu bằng việc đưa vào một ngưỡng tần suất xuất hiện của ghép nối mẫu (pattern matches), chúng ta có thể bù vào phần đã mất đi này cho độ chính xác. Đặc biệt, đối với các công việc trích xuất nơi mà sai số dự kiến là rất thấp, việc gia tăng sai số là rất có lợi nhằm tăng hiệu năng tổng thể khi mà nó được đo dưới dạng trung bình điều hòa (harmonic mean) của độ chính xác và sai số (F-measure). Trong các thử nghiệm được mô tả trong phần 4.3, chúng tôi sẽ chỉ ra rằng khi sử dụng nhiều hơn các mẫu tổng quát (general patterns), người sử dụng có thể chọn giữa sai số hoặc độ chính xác bằng cách hiệu chỉnh tham số ngưỡng. Tiếp theo, chúng tôi sẽ chỉ ra cách tận dụng độ dư thừa thông qua việc sử dụng nhiều hơn các mẫu tổng quát có thể cải tiến hiệu năng của phương pháp.
Trong phần tiếp theo, chúng tôi sẽ định nghĩa một loạt các công việc trích xuất thể hiện quan hệ mà phương pháp này có thể đã sử dụng. Chúng tôi cũng giới thiệu phương pháp làm giàu ontology, công cụ phân tích văn bản tOKo và ngôn ngữ mẫu mà chúng tôi đã sử dụng trong các thử nghiệm của mình. Các thử nghiệm này được mô tả trong phần 4.3.
4.2 Làm giàu ontology sử dụng mẫu
4.2.1 Định nghĩa bài toán
Chúng tôi sử dụng cùng một khái niệm của một ontology trong Chương 2, trong đó chúng ta phân biệt giữa mô hình dữ liệu ontology với các lớp và các quan hệ và cơ sở tri thức mà nó bao gồm cả thể hiện của lớp và thể hiện quan hệ. Chúng tôi định nghĩa việc làm giàu ontology như một công việc bổ sung tự động (hoặc bán tự động) cấu trúc ontology hoặc các thành phần của cơ sở tri thức vào ontology đã có từ trước (populated ontology). Các phần công việc của việc làm giàu ontology bao gồm khám phá cả thể hiện lớp và thể hiện quan hệ (làm giàu cơ sở tri thức). Trong chương này, chúng tôi sẽ tiếp tục tập trung các công việc sau đó, làm giàu từng phần của ontology có sẵn.
Chúng tôi định nghĩa lại một mô hình dữ liệu ontology như là tập các lớp có gán nhãn C1, ...., Cn, được phân cấp theo quan hệ lớp con. Các quan hệ giữa các lớp khác hơn với quan hệ lớp con cũng được định nghĩa (R: Cj x Cj). Chúng tôi nói về ontology đã được trích xuất (populated ontology), bên cạnh mô hình dữ liệu ontology, một cơ sở tri thức với cả các thể hiện của lớp và thể hiện quan hệ từ mô hình dữ liệu ontology cũng được giới thiệu.
Trong Chương 2, chúng tôi đã định nghĩa công việc trích xuất thể hiện quan hệ từ một kho dữ liệu như sau:
Cho 2 lớp Cj và Cj trong một ontology đã được trích xuất một phần (partly populated ontology), với tập các thể hiện Ii và Ij và cho một quan hệ R: Ci x Cj, hãy tìm một thể hiện i ∈ Ii sao cho tất cả các thể hiện j ∈ Ij có quan hệ R(i, j) trong kho dữ liệu.
Hơn nữa, chúng ta có lẽ biết hoặc không biết tất cả các phần tử của Ii và Ij. Trong chương này chúng ta sẽ thảo luận cả trong trường hợp khi mà chúng ta không biết được hết tất cả các phần tử của Ii hoặc Ij cũng như trường hợp khai phá các thể hiện mới của lớp Ci hoặc Cj. Trong trường hợp này, chúng tôi đề cập đến lớp chưa được khai phá hoặc lớp đã được khai phá một phần và công việc này cũng bao gồm bổ sung thể hiện của các lớp này.
Trong chương này, chúng tôi mo tả một phương pháp cho công việc này mà nó sử dụng một công cụ trích xuất thông tin mã nguồn mở, tOKo [Anjewierden, 2006] và ngôn ngữ mẫu mạnh của nó. Một số bình luận và kết luận cũng được đưa ra với các công cụ khác với các chức năng tìm mẫu có thể so sánh. Tuy nhiên, kết quả cụ thể phụ thuộc vào công cụ mà đã sử dụng.
4.2.2 Công cụ tOKo và ngôn ngữ mẫu
Đối với việc trích xuất thông tin dựa trên mẫu trong chương này, chúng tôi sử dụng công cụ tOKo. TOKo là một công cụ mã nguồn mở được thiết kế để duyệt và phân tích kho dữ liệu văn bản. Công cụ này có một số lượng lớn các chức năng phân tích văn bản tương tác mà có thể truy cập hoặc thông quan giao diện người dùng hoặc là thông qua bộ thư viện Prolog API. Công cụ tOKo cung cấp rất nhiều hỗ trợ cho kỹ thuật ontology. Nó tích hợp một trình biên tập ontology trong đó các thuật ngữ và khái niệm có thể được lưu trữ và thao tác. Công cụ này có thể được sử dụng để xây dựng ontology từ văn bản cũng như sử dụng để liên kết các ontology đã có từ một kho dữ liệu văn bản. Chức năng xử lý ngôn ngữ tự nhiên của các khái niệm và thuật ngữ (như là lỗi chính tả và viết tắt) được suy luận và lưu trữ trong công cụ này. Một lượng lớn các công việc phân tích văn bản được cài đặt trong công cụ tOKo, bao gồm tính toán tần suất xuất hiện của từ, xác định prefix/infix/suffix và phân tích ngôn ngữ tiếng Anh và tiếng Hà Lan. Các công việc trích xuất thông tin mức độ cao hơn như là nhận dạng thực thể tên và nhận dạng tên người cũng được cài đặt.
Công cụ tOKo cũng cung cấp một chức năng tìm kiếm mẫu rất mạnh. Chức năng tìm kiếm mẫu có thể sử dụng thông qua giao diện người dùng cũng như thông qua bộ thư viện Prolog API. Trong trường hợp sử dụng thông qua giao diện người dùng, các tập hợp từ từ kho dữ liệu mà nó phù hợp (so khớp - match) với các mẫu sẽ được hiển thị ra màn hình công cụ. Trong trường hợp sử dụng bộ thư viện Prolog API, các tập hợp từ kết quả tìm kiếm sẽ được lưu trữ như là các Prolog Facts và có thể được phân tích sau đó.
Để đơn giản một loạt các tìm kiếm mẫu mà cũng có thể bao gồm các khái niệm ontology, công cụ tOKo bao gồm ngôn ngữ mẫu riêng. Trong các phần dưới đây, chúng tôi sẽ giới thiệu một số các truy vấn mẫu và theo đó chúng tôi sẽ giới thiệu tổng quan về cú pháp và ngữ nghĩa của một số cấu trúc ngôn ngữ mẫu. Trong chương này, các mẫu được viết như sau: apple.
- Các từ trong khớp mẫu (patterns match) chính xác với các từ đó trong kho văn bản (corpus), bao gồm các thay đổi về chữ hoa, chữ thường: apple so khớp với "apple" và "Apple"
- Dẫu ngoặc tròn (parentheses) được sử dụng để ký hiệu của bổ đề (denote lemma’s): (apple) so khớp với bao gồm "apples"
- Dấu ngoặc nhọn (brackets) được sử dụng để ký hiệu các lớp từ: <noun> so khớp với tất cả các danh từ, <integer> so khớp với tất cả các số nguyên. Các lớp từ này có thể có các bổ nghĩa thêm. Đối với thể hiện <noun; capt> so khớp chỉ với các danh từ mà bắt đầu bằng chữ hoa.
- Để nhận được tất cả các khái niệm con đã khớp nối của một khái niệm ontology, dấu ngoặc vuông được sử dụng: cho một ontology với một khái niệm mức trên cùng ’fruit’, mẫu [fruit] khớp nối với "apples", "Apple", "pear", vv. Chức năng mạnh này cho phép xây dựng một mẫu đơn giản cho một tập rất lớn các thể hiện và vì vậy, việc trích xuất nhiều thể hiện quan hệ với chỉ một câu truy vấn đơn giản.
- Khoảng trống (spaces) trong mẫu so khớp với khoảng trắng (whitespaces), ’_’ so khớp với một dẫu hiệu (token); ’∗’ so khớp với một từ
- Để tìm ra nếu một mẫu con xuất hiện bên trong N dấu hiệu (tokens) của một mẫu con khác, phép toàn gần (the near operator) ...N được sử dụng: <verb>...5[fruit] so khớp với "eat an apple" và "eat a tasty pear"
- Các phép toán tập hợp (set operations) có thể được thực hiện để tạo các mẫu từ các mẫu con. Ký hiệu ∧ được sử dụng để tạo ra các phép hội (conjunctions), | để tạo ra phép giao (disjunctions) và ! để ký hiệu phép loại trừ. Dấu ngoặc cong (curly brackets) được sử dụng để định nghĩa tập dữ liệu: I {eat|use} ...3 {[fruit] ∧<noun; capt>} so khớp với "I eat an apple" và "I use my Apple"
![]() |
Figure 14: Outline of the task approach |
Trong phần này, chúng tôi giới thiệu phương pháp tổng quát của chúng tôi để làm giàu ontology sử dụng mẫu. Trong phần 4.3, chúng tôi mô tả một loạt các cài đặt cụ thể của phương pháp này đối với các công việc trên các miền khác nhau. Phương pháp này được chia ra làm 03 pha. Hình 14 đưa ra cái nhìn tổng quan về ba pha của phương pháp này.
Trong pha Trích xuất thông tin (Information Extraction), các mẫu cụ thể xây dựng thủ công được sử dụng để phát hiện sự xuất hiện dạng văn bản của một quan hệ trong một kho văn bản. Trong pha so khớp ontology (ontology matching), các khớp nối mẫu (pattern matches) đã được trích xuất được ánh xạ từ ontology và đưa ra kết quả là các bộ có thứ tự [Subject, Relation, Object] biểu diễn các thể hiện quan hệ ứng viên. Trong pha thứ ba, tri thức nền tảng riêng biệt về miền (domainspecific background knowledge) về chủ đề, quan hệ và/hoặc đối tượng có thể được sử dụng để lọc các yếu tố (the facts) và để cải tiến chất lượng của các thể hiện quan hệ ứng viên này. Trong các nội dung mô tả phần thử nghiệm, chúng tôi sẽ đưa ra một số ví dụ của các công việc hậu xử lý này. Lý do của việc chia phương pháp này ra làm 3 pha là do kết quả của 2 pha đầu tiên có thể dễ dàng được so sánh với các miền và các công việc khác. Pha hậu xử lý (post-processing) phụ thuộc vào các khái niệm và tri thức nền tảng đối với công việc cụ thể và công việc làm tăng hiệu năng sẽ thay đổi tùy theo. Vì vậy, việc so sánh giữa các phương pháp là rất khó thực hiện. Sau đây chúng ta sẽ đi vào chi tiết của từng pha thực hiện của phương pháp.
4.2.3.1 Pha Trích xuất thông tin
Đầu vào của phương pháp này là một quan hệ cụ thể R và các khái niệm liên quan đến quan hệ này là Ci và Cj từ một ontology và bất kỳ các thể hiện Ii và Ij từ cơ sở tri thức. Trong bước đầu tiên, chúng ta tạo một kho văn bản (corpus) cho công việc này bằng cách sử dụng các nhãn từ các khái niệm và quan hệ trên. Điều này được thực hiện theo cách tương tự với cách đã được mô tả trong chương 2. Phương pháp này xây dựng một câu truy vấn đặc biệt gắn với công việc này, nó được đưa vào máy tìm kiếm Google. N trang đầu tiên kết quả trả về từ máy tìm kiếm Google tạo nên kho văn bản. N là tham số của phương pháp này. Trái ngược với phương pháp được trình bày trong chương 2, ở đây chúng tôi không thực hiện việc tạo ra một kho văn bản riêng biệt cho mỗi thể hiện i ∈ Ii. Điều này hạn chế độ phức tạp Google của phương pháp này [Geleijnse et al., 2006], điều này làm cho nó phù hợp hơn đối với các công việc trích xuất thông tin mà nó thực hiện trên khối lượng lớn các thể hiện trongn Ii.
Bởi vì hiệu năng của phương pháp này phụ thuộc vào chất lượng của kho văn bản, do vậy việc xây dựng một câu truy vấn google tốt là việc rất quan trọng để cho ra các kết quả tốt. Như đã gợi ý, nhãn của các lớp Ci và Cj và quan hệ R được sử dụng để xây dựng câu truy vấn Google. Nếu nhãn của các lớp này là không đủ tính mô tả, khi đó có thể cần đến nhãn của các lớp con của Ci và Cj và các siêu thuộc tính của quan hệ R để xây dựng câu truy vấn R. Như là một ví dụ, khi khởi tạo quan hệ has_player giữa hai lớp là Club và Player trong miền bóng đá (football domain), việc bổ sung nhãn từ siêu lớp Football vào câu truy vẫn sẽ cho kết quả một kho văn bản phù hợp với miền hơn. Cả ontology ban đầu và kho văn bản được tạo theo cách trên đều được đưa vào công cụ tOKo.
Bước tiếp theo trong phase Trích xuất thông tin là xây dựng thủ công các mẫu trích xuất. Chất lượng của các mẫu trích xuất này ảnh hưởng lớn đến hiệu năng của phương pháp. Ở đây, chúng tôi mô tả các phần tử khác nhau của mẫu trích xuất thông tin và đưa ra các hướng dẫn trong việc xây dựng các mẫu trích xuất này. Chúng tôi đã tiến hành thực nghiệm với các mẫu khác nhau trong hai miền, kết quả được trình bày trong phần 4.3.
Nói chung, một truy vấn mẫu bao gồm 3 mẫu con tương ứng với lớp chủ ngữ (subject) Ci, quan hệ R và lớp tân ngữ (object) Cj. Mẫu con đầu tiên nhằm trích xuất sự xuất hiện của lớp Ci, sử dụng chức năng của công cụ tOKo để lấy ra được các khái niệm con (sub-concepts) và các thể hiện của các lớp ngữ nghĩa. Khi mà các tri thức bổ sung về sự hiện diện dạng văn bản (textual manifestations) là sẵn có, điều này được bổ sung vào mẫu con như là một bổ nghĩa (modifier) để chắc chắn một sự khớp nối tốt trong kho văn bản. Ví dụ, khi Ci là khái niệm Roman God, một bổ nghĩa được thêm vào là khớp nối (match) cần bắt đầu với chữ cái viết hoa, khi đó kết quả mẫu con sẽ là [RomanGod ] ∧ <word; capt>. Khi tìm kiếm các phong cách nghệ thuật (art styles), việc sử dụng một bổ sung cần các ghép nối khác nhau to được tách rời và được sử dụng để phan biệt giữa ’neo-impressionism’ và ’impressionism’ (đối với một mẫu, xem phần 4.3.2). Các định nghĩa của bổ ngữ (modifiers) có thể tìm thấy trên website của công cụ tOKo [Anjewierden, 2006].
Mẫu con thứ hai được sử dụng để tìm sự xuất hiện của quan hệ R. Đối với mẫu con này, nhãn của R có thể được sử dụng nhưng thường một mẫu có tính mô tả hơn cần được định nghĩa. Ví dụ, một mẫu con cơ sở cho quan hệ is_god_of có thể là the god of. Để tạo ra một mẫu tổng quát hơn, các phần của mẫu con này có thể được thực hiện một cách tùy chọn hoặc là được thay thế bởi từ (substituted by word) hoặc là các ký hiệu lớp từ (word class symbols). Các mẫu này tương ứng với quan hệ R trong ontology được lưu trữ trong ontology ứng dụng (application ontology) của công cụ tOKo. Các mẫu khác nhau hoặc các phần của mẫu có thể được sử dụng cho một quan hệ đơn giản.
Phần mẫu con cuối cùng liên quan đến khái niệm Cj và được xây dựng giống với cách xây dựng mẫu con đầu tiên (Ci). Như chúng ta đã đề cập trong các giả thiết, các thể hiện của các lớp Ci hoặc Cj là không cần biết trước. Nếu đây là trường hợp mà công việc trích xuất bao gồm việc khai phá thể hiện mới của một trong các lớp. Mẫu con cuối cùng này đối với một lớp chưa biết sẽ không bao gồm nhãn lớp giữa ngoặc vuông (square brackets). Bằng cách sử dụng lớp từ mong muốn (danh từ, động từ, vv.) hoặc siêu lớp (superclass) của Cj và bổ nghĩa tùy chọn thì các thể hiện chính xác của Cj có thể được tìm thấy. Một ví dụ của mẫu con này là sử dụng <noun> đối với các miền Roman gods cũng như chúng ta đã làm trong thử nghiệm trong phần 4.3.1.
Truy vấn mẫu trích xuất tổng thể đơn giản là gộp ba mẫu con đối với lớp chủ ngữ, quan hệ, và lớp tân ngữ. Ví dụ của truy vấn này là [god ] $god_of$<noun> mà nó được sử dụng để tìm quan hệ is_god_of giữa khái niệm đã khởi tạo Roman God và khái niệm chưa khởi tạo Domain cũng như các thể hiện đối với khái niệm cuối cùng này.
Sau đó chúng ta sử dụng bộ thư viện API của công cụ tOKo để thực hiện truy vẫn mẫu để trích xuất hiện diện dạng văn bản của các thể hiện quan hệ và các tập hợp từ cụ thể bên trong kho văn bản, kết quả trả về khớp nối với truy vấn mẫu này sẽ là kết quả đầu vào của phase so khớp ontology.
Phương pháp này trích xuất các thể hiện quan hệ ứng viên (candidate relation instances) từ văn bản là tương đối đơn giản và sử dụng thông tin ngôn ngữ học được cung cấp bởi công cụ phân tích văn bản tOKo. Nếu các công cụ khác được sử dụng mà nó cung cấp các phân tích ngôn ngữ của văn bản khác nhau, như là đối với cây phụ thuộc thể hiện (instance dependency trees), thông tin này cũng có thể được sử dụng để trích xuất nhiều hơn các thể hiện quan hệ.
4.2.3.2 Pha so khớp ontology
Trong pha so khớp ontoloy, các tập hợp từ cụ thể là kết quả từ pha Trích xuất thông tin được chuyển đổi sang bộ ba RDF bằng cách ánh xạ ba tập hợp từ con khác nhau tương ứng với các thể hiện của lớp Ci, quan hệ R và các thể hiện của lớp Cj sử dụng bộ thư viện tOKo API. Các bộ (triples) này là thể hiện quan hệ ứng viên mà với nó ontology sẽ được làm giàu.
Nếu không phải tất cả các thể hiện của một trong các lớp được biết trước, các thể hiện ứng viên mới sẽ được xác định trong pha này. Các phần của tập hợp từ đã được trích xuất mà nó đã so khớp với lớp chưa được khám phá (unpopulated class) thì sau đó được thêm vào như là một thể hiện với các phần đó như là một nhãn thể hiện. Từ động nghĩa (synonyms), lỗi chính tả (misspellings) và chữ viết tắt (abbreviations), khi đã được phát hiện (discovered) bởi công cụ tOKo cũng như đã được lưu trữ trong ontology miền (domain ontology) được ánh xạ sang một thể hiện đơn giản của lớp Ci hoặc lớp Cj.
Chúng ta sử dụng tần số xuất hiện của các thể hiện quan hệ ứng viên để xác định các quan hệ nào được bổ sung vào trong cơ sở tri thức. Tần suất xuất hiện của thể hiện quan hệ ứng viên đơn giản là tổng số lần xuất hiện của tất cả các tập hợp từ so khớp trong kho văn bản. Quá trình này chạy tự động sử dụng bộ thư viện tOKo API trên các kết quả và một ontology đầu ra. Trong thử nghiệm của chúng tôi, chúng tôi đánh giá hiệu năng của phương pháp này đối với một loạt các phương pháp khác bằng việc đưa vào một ngưỡng tần suất xuất hiện của các quan hệ ứng viên và tính toán độ chính xác, sai số và độ đo F (F-measure) đối với các giá trị khác nhau của ngưỡng này.
Ví dụ, giả sử rằng chúng ta đang trích xuất tự động quan hệ giữa các vị thần (deities) và miền của họ và lớp sau đó (latter class) là chưa được trích xuất. Trong ontology đó, nhãn thay thế cho nữ thần Mellona là 'Mellonia'. Các tập hợp từ đã được trích xuất 'Mellona is the goddess of bees' và tập hợp từ 'Mellonia is the goddess of bees' đều được ánh xạ tới thể hiện quan hệ ứng viên:
GODS:MELLONA GODS:IS_GOD_OF GODS:BEES frequency=2
Tại cùng thời điểm gods:bees là một ứng viên đã được bổ sung vào như là một thể hiện của lớp GODS:DOMAIN.
Kết quả của pha này là một danh sách các thể hiện quan hệ ứng viên sắp xếp theo thứ tự tần suất đồng xuất hiện (frequency of occurrence). Nếu công việc trích xuất thông tin này cũng bao gồm việc tìm ra các thể hiện ứng viên mới, thì pha này cũng trả về kết quả như là một tập cũng được sắp xếp theo thứ tự như vậy. Để chọn các thể hiện quan hệ ứng viên mà gần như chính xác, các thể hiện quan hệ ứng viên với tần suất xuất hiện cao có thể được thêm vào ontology. Đối với điều này chúng ta sử dụng một ngưỡng tần suất xuất hiện đơn giản. Phụ thuộc vào các yêu cầu của công việc làm giàu ontology cụ thể, giá trị của ngưỡng này có thể thay đổi để tập trung vào hoặc là độ chính xác (precision) hoặc là sai số (recall). Trong phần 4.3 chúng tôi giải thích việc sử dụng giá trị ngưỡng này trong việc kết hợp với các mẫu sinh hàng loạt.
4.2.3.3 Pha hậu xử lý
Trong pha hậu xử lý, tri thức nền tảng về lớp Ci và lớp Cj và quan hệ R được sử dụng để cải tiến hiệu quả của phương pháp. Do đó tri thức nền tảng cũng được sử dụng để giảm bất kỳ độ dư thừa không muốn trong các thể hiện quan hệ ứng viên. Đối với hai pha trước, chúng tôi liệt kê phương pháp chung mà cũng được khởi tạo đối với các miền và công việc khác nhau. Tuy nhiên, quá trình thực hiện pha này phụ thuộc tổng thể vào tự nhiên (the nature) và khả năng sẵn sàng của tri thức nền tảng từ ontology miền. Vì vậy, ở đây chúng tôi đưa ra ba ví dụ của việc hậu xử lý: sử dụng thông tin từ đồng nghĩa, sử dụng tri thức về lực lượng của một quan hệ và khai thác thuộc tính của quan hệ R mà nó được bắc cầu qua cấu trúc phân cấp của Cj. Hai ví dụ sau đã được sử dụng trong thử nghiệm mô tả trong phần 4.3.
Kiểu hậu xử lý đầu tiên là thông qua việc sử dụng của các nguồn tài nguyên ngoài mà nó cung cấp thông tin từ đồng nghĩa. Nếu các từ đồng nghĩa đối với các thể hiện của 2 lớp Ci và Cj được tự liệt kê ra trong ontology nguồn, thì các so khớp mẫu (pattern matches) từ hai thuật ngữ đồng nghĩa sẽ được ánh xạ vào cùng một thể hiện trong pha so khớp ontology. Nhưng thông tin về từ đồng nghĩa có sẵn cả trong các nguồn bên ngoài như là WordNet [Fellbaum, 1998], các kết quả từ pha đó có thể được cải tiến bằng cách kết hợp các thể hiện quan hệ ứng viên với các thể hiện đồng nghĩa của Ci hoặc của Cj. Ví dụ, trong một ontology mô tả miền các vị thần (gods), nói rằng chúng ra đã lấy ra được các thể hiện quan hệ ứng viên dưới đây và tần suất xuất hiện của chúng:
[gods:Discordia, gods:is_god_of, gods:dischord] frequency=2
[gods:Discordia, gods:is_god_of, gods:strife] frequency=3
Giả sử rằng chúng ta sẵn có tri thức nền tảng mà giúp chúng ta kết luận rằng dischord và strife là cùng một thứ, chúng ta có thể kết hợp các thể hiện quan hệ ứng viên này thành một quan hệ đơn:
[gods:Discordia, gods:is_god_of, gods:strife] frequency=5
Một ví dụ thứ hai của hậu xử lý là khai thác tri thức về lực lượng (cardinality) của một quan hệ. Nếu chúng ta biết rằng một thê hiện i của lớp Ci là có liên quan chính xác với một thể hiện của lớp Cj và chúng ta có nhiều thể hiện quan hệ ứng viên đối với một thể hiện đã cho là i, chúng ta có thể loại đi các ứng viên mà hầu như ít có khả năng đúng. Ví dụ, các thể hiện quan hệ với tần suất xuất hiện thấp nhất. Trong thử nghiệm được trình bày trong phần 4.3.2 nơi mà chúng tôi trích xuất quan hệ giữa nghệ sĩ artists và birth dates, chúng tôi áp dụng chính xác phương pháp hậu xử lý này và loại đi nhiều các thể hiện quan hệ ứng viên không chính xác.
Trong ví dụ thứ ba được áp dụng trong một thử nghiệm khác từ phần 4.3.2. Nếu các thể hiện nhận được của lớp Ci hoặc lớp Cj là có cấu trúc phân cấp, cấu trúc phân cấp này có thể được sử dụng để kết hợp việc xác định tần suất xuất hiện của các thể hiện ở mức thấp hơn trong cấu trúc phân cấp để tính ra (raise) tần suất xuất hiện ở mức cao hơn trong cấu trúc phân cấp đó. Điều này chỉ có ý nghĩa nếu quan hệ R là bắc cầu (transitive) qua cấu trúc phân cấp của khái niệm Ci hoặc Cj. Một quan hệ là bắc cầu qua cấu trúc phân cấp H của Cj nếu:
∀i, j, k R(i, j) ∧ H(j, k) ⇒ R(i, k) (4.1)
(trong đó H(i, k) có nghĩa k là một cấp trên (ancestor) của i). Ví dụ quan hệ ’was_born_in’ là bắc cầu qua một phần cầu trúc phân cấp của vị trí địa lý, nhưng quan hệ ’is_mayor_of’ thì không.
Các ontology miền khác nhau và các kiểu tri thức nền tảng khác nhau sẽ tạo ra các phương pháp cụ thể khác nhau. Trong phần 4.3.2, chúng ta sử dụng từ điển đồng nghĩa (thesaurus) địa lý có cấu trúc phân cấp để cải tiến chất lượng và giảm độ dư thừa trong các thể hiện quan hệ đã trích xuất của quan hệ ’born_in’ giữa artists và places of birth của họ.
Phương pháp mà chúng tôi sử dụng để làm được điều này là cộng thêm vào tần suất xuất hiện của mỗi quan hệ ứng viên tần suất của các thể hiện quan hệ ứng viên mà ngụ ý là tần suất cũ (the former), các quan hệ với các khái niệm mức trên thừa kế tần suất xuất hiện của các khái niệm mức dưới của nó. Một số tần suất xuất hiện mới được coi như là các tần suất xuất hiện hiểu ngầm (implied frequencies). Lưu ý rằng các thể hiện quan hệ ứng viên với một khái niệm ở mức cao hơn trong cấu trúc phân cấp sẽ luôn luôn có một tần suất hiểu ngầm (implied frequency) mà bằng hoặc lớn hơn tần suất xuất hiện của một quan hệ với một khái niệm con ở mức thấp hơn trong cấu trúc phân cấp.
Sau khi các tần suất hiểu ngầm này đã được xác định, chúng tôi muốn chọn thể hiện ứng viên mà vừa rõ ràng và vừa cụ thể nhất có thể (sâu hơn trong cấu trúc phân cấp). Việc cụ thể hơn một thể hiện quan hệ là, nó cung cấp nhiều thông tin hơn và hữu ích hơn khi thêm nó vào trong cơ sở tri thức. Vì vậy, chúng ta sử dụng một phương pháp mà chọn thể hiện quan hệ ứng viên mà nó ở mức sâu nhất có thể trong cấu trúc phân cấp nhưng vẫn nhất quán với tất cả các thể hiện quan hệ ứng viên mà có tần suất xuất hiện hiểu ngầm cao hơn. Các kết quả này là trong phương pháp hậu xử lý hai bước:
1. Tính toán tất cả các tần suất xuất hiện hiểu ngầm
2. Chọn thể hiện quan hệ ứng viên cụ thể nhất mà nó vẫn nhất quán với các thể hiện quan hệ ứng viên với tần suất xuất hiện hiểu ngầm cao hơn.
Bằng cách sử dụng một ngưỡng tần suất xuất hiện hiểu ngầm chúng ta có thể chọn lại một điểm muốn có (desired point) của sự cân bằng độ chính xác / sai số. Nhưng kết quả sẽ đưa ra cho ta chất lượng được cải thiện toàn bộ.
Bây giờ chúng ta sẽ giải thích công việc hậu xử lý này qua một ví dụ. Ví dụ này tương ứng với công việc hậu xử lý được thực hiện trong mục 4.3.2. Trong đó, chúng ta đang khởi tạo quan hệ 'born_in' giữa nghệ sĩ (artists) và vị trí địa lý (geographical locations), quan hệ này được sắp xếp thứ tự trong bộ từ điển đồng nghĩa địa danh (Geographical Names - TGN) [The Getty Foundation, 2000b]. Nếu chúng ta đưa ra tập giả định các thể hiện quan hệ ứng viên dưới đây mà nó là kết quả của pha so khớp ontology đối với một lớp artist đơn có tên là Rembrandt:
[ulan:Rembrandt, ec:born_in, tgn:Leiden] freq.=2
[ulan:Rembrandt, ec:born_in, tgn:Antwerpen] freq.=3
[ulan:Rembrandt, ec:born_in, tgn:Zuid-Holland] freq.=2
[ulan:Rembrandt, ec:born_in, tgn:Netherlands] freq.=2
Có 4 thể hiện quan hệ sẽ được đánh giá là 'chính xác' và một thể hiện quan hệ là 'chưa chính xác' (Antwerpen). Đối với một ngưỡng có giá trị là <= 2, sai số cho tập này sẽ là 0.75 nhưng kết quả dư thừa cao (Leiden là một phần của Zuid-Holland, nói cách khác chúng đều là một phần của Netherlands). Đối với giá trị ngưỡng có giá trị > 3, sai số cho tập này sẽ là 0 và nếu giá trị ngưỡng chính xác bằng 3, độ chính xác cũng là 0, nhưng một thể hiện quan hệ không đúng sẽ được thêm vào. Chúng ta áp dụng phương pháp hậu xử lý đối với ví dụ trên, kết quả đối cùng với tần suất xuất hiện hiểu ngầm (IF) như dưới đây:
[ulan:Rembrandt, ec:born_in, tgn:Leiden] IF=2
[ulan:Rembrandt, ec:born_in, tgn:Antwerpen] IF=3
[ulan:Rembrandt, ec:born_in, tgn:Zuid-Holland] IF=4
[ulan:Rembrandt, ec:born_in, tgn:Netherlands] IF=6
Trong bước thứ hai, [ulan:Rembrandt, ec:born_in, tgn:Zuid-Holland] đã được chọn, bởi vì cả các quan hệ ứng viên với các khái niệm TGN mức sâu hơn trong cây phân cấp đều không phù hợp với hai thể hiện quan hệ khác mà có tần suất xuất hiện cao hơn.
Trong phương pháp hậu xử lý, hiển nhiên là chỉ "duyệt từ dưới lên trên trong cây phân cấp" thông qua việc tính toán giá trị tần suất xuất hiện ngẩm hiều. Điều này là phù hợp với khái niệm tịnh tiến qua cây phân cấp. Chúng ta cũng có thể tính toán một giá trị điểm khác mà sử dụng phỏng đoán rằng nhiều hơn khả năng Rembrandt sinh ta ở Leiden nếu chúng ta tìm thấy sự kiện anh ấy sinh ra tại Zuid-Holland. Nhưng ngược lại nếu việc xuất hiện của quan hệ [ulan:Rembrandt, ec:born_in, tgn:Leiden] thực sự ám chỉ quan hệ [ulan:Rembrandt, ec:born_in, tgn:Zuid-Holland], điều ngược lại là không đúng. Ở đây, chúng ta sử udngj nhiều hơn các biến thể khác nhau của tần suất xuất hiện hiểu ngầm một cách nghiêm ngặt.
Trong ví dụ này, phương pháp lọc các thể hiện quan hệ ứng viên này cải tiến độ chính xác của các kết quả và loại đi các dư thừa không mong muốn. Để kiểm tra tính hiệu quả của phương pháp hậu xử lý, trong phần 4.3.2, chúng tôi áp dụng nó đối với tập lớn hơn các thể hiện ứng viên và chúng tôi đã phân tích các kết quả.
4.3 Thử nghiệm
Trong phần này chúng tôi sẽ giới thiệu một loạt các thử nghiệm trên hai miền khác nhau. Miền đầu tiên là miền của các vị thần la mã (Roman deities) và các vùng cai trị riêng của họ hoặc các miền. Ontology và cơ sở tri thức rất nhỏ này trong miền đã được tạo trước riêng để đánh giá phương pháp này. Trong miền này, công việc trích xuất thể hiện quan hệ là khám phá quan hệ giữa các vị thần la mã (Roman Gods) và các miền của họ. Thử nghiệm này giải thích các công việc thực hiện của phương pháp này và chúng tôi đánh giá hiệu quả của một loạt các mẫu khác nhau. Ở đây, chúng tôi chỉ đánh giá hai pha ban đầu cả công việc trích xuất thể hiện quan hệ. Tuy nhiên chúng tôi đưa ra một số ý kiến đối với pha hậu xử lý. Trong phần 4.3.2, chúng tôi xem xét lại miền di sản văn hóa (cultural heritage). Đây là miền trong thế giới thực, ..., không được tạo trước riêng để đánh giá phương pháp này. Chúng ta thảo luận ảnh hưởng của kích thước kho văn bản và chúng tôi sử dụng phương pháp từ chương này cho một số các công việc Ontology Population. Đối với mỗi công việc này, chúng tôi đánh giá kết quả của pha trích xuất thông tin. Đối với một trong số các công việc này, việc trích xuất quan hệ giữa nghệ sĩ (artists) và nơi sinh (birthplaces), chúng tôi cũng thảo luận pha hậu xử lý và đánh giá chúng.
4.3.1 Miền các vị thần La Mã (Roman Gods)
4.3.1.1 Định nghĩa bài toán
Ontology mà chúng tôi đã xây dựng đối với công việc này trong miền của thần thoại La Mã bao gồm hai lớp: gods:Roman God và gods:Domain, với quan hệ gods:is_god_of giữa hai lớp này. Chúng tôi đã trích xuất tự động lớp gods:Roman God với các thể hiện. Đối với bài toán này, chúng tôi đã trích xuất bán tự động 259 vị thần và nữ thần từ trang Wikipedia liệt kê các vị thần La Mã. Một loạt các tên đồng nghĩa của các vị thần cũng được thêm vào như là các nhãn thay thế giống như đã được đề cập trong các phần trước. Lớp tân ngữ gods:Domain không được trích xuất phía bên tay trái.
Công việc trích xuất thể hiện quan hệ là tìm các thể hiện của quan hệ dưới đây:
[gods:Roman God, gods:is_god_of, gods:Domain]
Lưu ý rằng một vị thần hoặc nữ thần có thể có nhiều miền (Jupiter là vị thần mặt trờ cũng là vị thần của nghệ thuật và âm nhạc) và một miền đơn có thể có nhiều vị thần đại diện nó (cả Mars và Bellona đều là các vị thần chiến tranh). Ontology rất nhỏ này được import vào trong công cụ tOKo. Trong bước đầu tiên, chúng tôi trích xuất kho văn bản. Đối với bước này, chúng tôi đã xây dựng một kho văn bản bằng cách trích xuất từ Web 1000 trang kết quả từ câu truy vấn Google với câu truy vấn: ’Roman +God +Goddess’. Kết quả là chúng tôi có được một kho văn bản có kích thước 26Mb. Chúng tôi đã dứt khoát loại trừ trang Wikipedia mà đã sử dụng nó để tạo ra ontology ban đầu. Kho văn bản này cũng được import vào công cụ tOKo. Để có được dấu hiệu (indication) của chất lượng của kho văn bản với việc liên quan đến miền, đầu tiên chúng tôi đã thực hiện tìm kiếm trong kho văn bản đối với sự xuất hiện của lớp gods:Roman God. Tổng cộng có 12755 lần xuất hiện của vị thần hoặc nữ thần trong kho văn bản được tương ứng với tên của 242 vị thần khác nhau. Điều này có nghĩa rằng 17 tên vị thần từ ontology ban đầu của chúng ta không xuất hiện trong kho văn bản đã được sử dụng. Vị thần với tần suất xuất hiện cao nhất là Jupiter với 1280 lần xuất hiện. Tần suất xuất hiện chỉ ra một phân bố kiểu Zipf kỳ vọng (expected Zipf-like distribution) (cf. [Zipf, 1949, Li, 1992]).
Bởi vì chúng ta quan tâm đến cách thực hiện một loạt các mẫu ở các mức tổng quát khác nhau, chúng tôi đã đưa vào công cụ tOKo với 5 mẫu khác nhau. Đối với điều này, chúng ta chỉ thay đổi các mẫu con tương ứng với quan hệ gods:is_god_of. Năm mẫu con khác nhau được thêm vào ontology ứng dụng của công cụ tOKo. Năm mẫu mở rộng này được liệt kê trong bảng 25. Mẫu 1 là mẫu cụ thể nhất trong số 5 mẫu. Mỗi mẫu lần lượt tiếp theo thay thể một thẻ (token) trong mẫu đó với một sự khái quát, điều đó làm cho các mẫu ngày càng tổng quát hơn. Mẫu 5 là mẫu tổng quát nhất trong tập các mẫu, vì nó chỉ cần tên của vị thần bên được theo sau bên trong 10 tokens bởi từ ’god’ hoặc ’goddess’, điều này có nghĩa là lần lượt theo sau bên trong 10 thẻ bởi một danh từ.
![]() |
Table 25: The patterns used in for the Roman deities relation extraction task, listed from top to bottom in ascending generality. |
![]() |
Table 26: All resulting candidate relation instances for pattern 1. The results are evaluated 1 (correct) or 0 (incorrect) |
4.3.1.2 Kết quả
Mỗi mẫu sẽ được chạy trong kho văn bản. Đối với mỗi mẫu, các kết quả được xếp hạng theo tần suất xuất hiện và được đánh giá thủ công bằng việc so sánh các kết quả với các thông tin trên trang Wikipedia mà ontology ban đầu đã được tạo từ trang Web đó. Nếu điều này dẫn tới các vấn đề liên quan đến độ chính xác của các kết quả, thì trang web Wikipedia đối với từng vị thần sẽ được tham khảo. Bởi vì các mẫu 3, 4 và 5 đưa ra một khối lượng lớn các kết quả, nên chúng tôi chỉ đánh giá các kết quả với tần suất lớn hơn hoặc bằng 3. Trong bảng 26, chúng tôi liệt kê danh sách tất cả các kết quả với tần suất xuất hiện là 1 hoặc nhiều hơn từ mẫu 1. Bảng 27 chỉ ra danh sách 20 kết quả đầu tiên đã được đánh giá từ việc áp dụng mẫu 5, được sắp xếp theo thứ tự tần suất xuất hiện.
Đối với mẫu 5 chỉ có một kết quả không chính xác từ bảng 26 và 27 là [gods:Jupiter, gods:is_god_of, "roman"], bởi vì Jupiter đặc biệt không phải là vị thần của đế chế La Mã. Tuy nhiên, có thể dễ dàng nhận ra tại sao mẫu 5 lại dẫn tới kết quả không chính xác.
![]() |
Table 27: The first 20 results from pattern 5. The results are evaluated 1 (correct) or 0 (incorrect) |
Mặc dù độ chính xác của mẫu 1 là 1 nhưng sai số cũng rất thấp. Để xác định được sai số, đầu tiên chúng ta thiết lập số các vị thần la mã từ ontology của chúng ta mà xảy ra ít nhất 1 lần trong kho văn bản. Đối với điều này chúng ta sử dụng một mẫu tOKo đơn giản là [god ]. Điều này đã mang lại 121755 hits từ phân bố Zipf trên 242 vị thần duy nhất. Tuy nhiên, mỗi vị thần có thể có nhiều hơn một miền. Từ một ví dụ của 15 nữ thần chúng ta đã đếm được trung bình 1,93 miền trên một vị thần dựa trên nguồn Wikipedia của Ontology. Chúng tôi đã thiết lập được một số thể hiện quan hệ ứng viên đã đánh giá là 242 x 1,93 = 468 thể hiện quan hệ.
Mẫu 1 chỉ nhận được 8 kết quả đối với giá trị ngưỡng là 1, vì vậy ở đây sai số là 8/468 = 0,017. Quan trọng hơn, đối với mẫu 1, chúng ta không thể thay đổi giá trị ngưỡng nhằm để tăng sai số. Đối với mẫu 5, đây thực sự là mẫu khả thi. Bằng việc giảm giá trị ngưỡng, chúng ta có thể tăng sai số của phương pháp. Dĩ nhiên, có một sự cân bằng giữa độ chính xác và sai số, và việc giảm ngưỡng sẽ giảm sai số. Tuy nhiên, bẳng việc sử dụng nhiều hơn các mẫu tổng quát, kết hợp với một ngưỡng tần suất xuất hiện, người dùng có thể chọn giữa sai số và độ chính xác. Quyết định này là dựa trên loại ứng dụng và mức độ hậu xử lý mà đối với nó phương pháp trích xuất này được sử dụng. Nếu, sau khi việc trích xuất đã diễn ra, các kết quả được kiểm tra bwangf tay, ngưỡng có lẽ nên được đặt ở mức thấp hơn. Mặt khác, nếu ứng dụng mong muốn độ chính xác rất cao, ví dụ trong các công việc Ontology Population tự động, một ngưỡng cao có lẽ được sử dụng để chắc chắn điều này.
![]() |
Figure 15: Precision values for the five patterns for the God-Domain extraction task |
Như chúng ta đã thấy trong hình 26, độ chính xác của mẫu 1 luôn là 1 (100%), không phụ thuộc vào giá trị ngưỡng. Đối với mẫu tương đối tổng quát, mẫu 2, chúng ta đã thấy rằng một giá trị ngưỡng thấp hơn cho các kết quả với độ chính xác thấp hơn. Giá trị đố chính xác nhỏ nhất đối với các kết quả đã được đánh giá này là 0,69, nó xảy ra với mẫu 3, với ngưỡng có giá trị là 6. Xung quanh giá trị ngưỡng, mẫu 3 được làm tốt hơn bởi các mẩu tổng quát hơn, mẫu 4 và mẫu 5, nhưng trong phần còn lại của đồ thị, chúng ta quan sát các hành vi mong đợi: một giá trị ngưỡng đơn, một mẫu cụ thể hơn thì độ chính xác của nó cao hơn.
Điều ngược lại đã được chỉ ra trong đồ thị sai số. Đối với tất cả các mẫu, chúng ta xem xét hiệu suất mong muốn: giá trị ngưỡng thấp hơn, sai số cao hơn. Đối với mẫu 1, sai số không bao giờ vượt quá 0,017, nhưng với các mẫu tổng quát hơn đạt đến giá trị cao hơn. Mẫu 5 có sai số là 0,34 tại giá trị ngưỡng là 3, điểm được đánh giá thấp nhất đối với mẫu đó. Hình 16 cho thấy rõ ràng rằng, với mọi giá trị ngưỡng với các mẫu tổng quát hơn thì giá trị sai số của nó là cao hơn.
![]() |
Figure 16: Recall values for the five patterns for the God-Domain extraction task. |
Rõ ràng có sự cân bằng (tradeoff) giữa sai số và độ chính xác đối với tất cả các mẫu. Để thể hiện được việc kết hợp này, chúng tôi vẽ đồ thị giá trị trung bình điều hòa (harmonic mean) của cả độ chính xác và sai số, giá trị độ đo F (F-measure) đối với các giá trị ngưỡng trong hình 17 đối với tất cả các mẫu. Ngay lập tức đưa ra rõ ràng rằng hình này rất giống với đồ thị sai số. Điều này là do một số lượng lớn các thể hiện quan hệ tương ứng được tìm (468). Bởi vì điều này mang lại giá trị sai số tương đối thấp (lên đến 0,35) khi được so sánh với độ chính xác (lên đến 1), sai số đã có ảnh hưởng tương đối lớn trên đường cong của đồ thị giá trị độ đo F. Tuy nhiên, chúng ta có thể kết luận từ hình 17 rằng khi sử dụng giá trị trung bình điều hòa, mẫu tổng quát nhất luôn tốt hơn các mẫu cụ thể hơn.
Chúng tôi kết luận rằng đơi với các công việc cụ thể này khi mà đo hiệu suất sử dụng độ đo F, sử dụng mẫu tổng quát fa một ngưỡng tần suất xuất hiện là phù hợp hơn việc sử dụng các mẫu cụ thể. Điều này chỉ đúng nếu sai số là tương đối quan trọng với giá trị trung bình điều hòa. Đây sẽ là trường hợp khi mà danh sách các thể hiện đầu ra Ii là tương đối lớn và số lượng lớn các thể hiện quan hệ được tìm thấy. Bằng việc sử dụng các mẫu tổng quát và một ngưỡng chúng ta đang tận dụng sự dư thừa của sự xuất hiện của các thể hiện quan hệ trong kho văn bản.
![]() |
Figure 17: F-measure values for the five patterns for the God-Domain extraction task. |
Đối với miền này, chúng tôi đã không thực hiện một toàn bộ các công việc của bước hậu xử lý. Tuy nhiên, chúng tôi sẽ đưa ra một ví dụ của phương pháp khả thi để cải tiến chất lượng của thể hiện quan hệ ứng viên bằng cách sử dụng cơ sở tri thức.
Chúng tôi không biết trước tất cả các miền khác nhau của các vị thần và họ không phải là phần trong tri thức nền tảng của chúng ta. Một bước hậu xử lý khả thi la so khớp các miền được tìm với một ontology từ vựng (lexical ontology) như là WordNet. Bằng cách sử dụng WordNet, chúng tôi có thể nhận ra các miền đồng nghĩa và kết hợp các thể hiện quan hệ ứng viên tương ứng, qua đó làm tăng tần suất xuất hiện kết hợp. Dưới đây là một ví dụ liên quan đến 2 kết quả này từ mẫu 5:
[gods:Abundantia, gods:is_god_of, plenty] frequency=2
[gods:Abundantia, gods:is_god_of, abundance] frequency=2
Bây giờ giả sử rằng giá trị ngưỡng được đặt là 3. Trong trường hợp này hoặc là các thể hiện quan hệ đúng được thêm vào cơ sở tri thức. Sử dụng WordNet chúng tôi có thể tự động khám phá ra rằng có số lượng "nhiều" và "phong phú" các thể hiện quan hệ đồng nghĩa. Sử dụng điều này, chúng ta có thể bổ sung một thể hiện của quan hệ gods:Domain vào cơ sở tri thức với cả các từ đồng nghĩa.
Khái niệm mới này sau đó nhận một tần suất xuất hiện mới, nó là tổng của hai thể hiện quan hệ ứng viên, có giá trị là 4. Tần suất này hiện vượt qua giá trị ngưỡng và nó đã được thêm vào cơ sở tri thức. Thậm chí nếu điều này có thể được làm đối với các thể hiện quan hệ ứng viên với một tần suất mà thực sự trên ngưỡng, nó vẫn có thể loại đi khỏi cơ sở tri thức các thể hiện quan hệ không mong muốn.
Trong ví dụ này, chúng tôi sử dụng một nguồn cơ sở tri thức độc lập với công việc và độc lập miền. Trong thử nghiệm mà đã giới thiệu trong phần tiếp theo, chúng tôi sẽ mô tả một bước hậu xử lý tương tự đối với miền di sản văn hóa sử dụng tri thức nền tảng cụ thể với công việc.
4.3.2 Miền di sản văn hóa (Cultural Heritage Domain)
Để kiểm tra hiệu quả của phương pháp này trong miền thứ hai, chúng tôi thực hiện lại với miền di sản văn hóa. Chúng ta lại tập trung vào việc làm giàu cơ sở tri thức với thông tin về nghệ sĩ (artists) từ danh sách the Getty Union List of Artist Names (ULAN) [The Getty Foundation, 2000c]. Đối với nghệ sĩ cá nhân (individual artists), chúng tôi sẽ cố gắng trích xuất thông tin nơi sinh liên quan trong phần 4.3.2.1, năm sinh trong phần 4.3.2.3, phong cách nghệ thuật trong phần 4.3.2.4 và trong thử nghiệm này được mô tả trong phần 4.3.2.5 chúng tôi sẽ cố gắng khai phá thể hiện của các quan hệ không rõ ràng giữa hai nghệ sĩ. Đối với 3 thử nghiệm đầu tiên, chúng tôi đưa ra các kết quả đã được đánh giá từ pha trích xuất thông tin. Đối với việc trích xuất thông tin nơi sinh, chúng tôi cũng định nghĩa pha làm giàu ontology và đánh giá kết quả của nó. Các kết quả của phần thử nghiệm cuối cùng là không được đánh giá nhưng chúng tôi đã giải thích các bước công việc của phương pháp có thể được sử dụng đối với miền này.
Các công việc này khác so với công việc đã được mô tả trong chương 2 trong đó lớp chủ ngữ của quan hệ (the artist) có một khối lượng lớn các thể hiện. Vì vậy, không thể thực hiện được việc trích xuất kho văn bản riêng cho mỗi thể hiện này, như là đã làm đối với phương pháp dư thừa thông tin trong chương 2. Bởi vì phương pháp được mô tả trong chương này không trích xuất riêng từng kho văn bản cho từng thể hiện, nên chúng tôi có thể sử dụng nó đối với mỗi loại công việc này. Trong phần 4.3.2.4, chúng tôi trích xuất quan hệ has_artist trái ngược với chương 2 và chúng tôi so sánh các kết quả của cả hai phương pháp.
4.3.2.1 Nghệ sĩ (artists) và nơi sinh (birthplaces)
Quan hệ đầu tiên mà chúng tôi cố gắng thực hiện là quan hệ giữa nghệ sĩ và nơi sinh của họ. Đối với công việc này, chúng tôi sử dụng lớp Person từ ULAN đối với nhánh phía bên tay trái của quan hệ. Quan hệ born_in đã được định nghĩa như là một phần của bộ từ vựng của dự án the MultimediaN E-culture project. Phạm vi của quan hệ này là vị trí địa lý. Đối với quan hệ này, chúng tôi sử dụng bộ từ điển địa danh Getty (the Getty Thesaurus of Geographic Names - TGN). TGN là một bộ từ điển của các vị trí địa lý chứa trên 900.000 địa danh được sắp xếp phân cấp thông qua quan hệ cha con (parent_of) mà trong trường hợp này có thể hiểu là quan hệ part_of. Do vậy, quan hệ kết quả đã được thực hiện là:
[ulan:artist, ec:born_in, tgn:place]
Lưu ý rằng mặc dù mỗi nghệ sĩ chỉ có một nơi sinh, nhưng các địa danh cấp cao hơn trong cây phân cấp "là một phần của" (part-of) cũng đúng (ví dụ: Vincent van Gogh sinh ra tại Zundert, cũng có nghĩa là sinh ra tại the Netherlands).
Bởi vì việc load toàn bộ ULAN và TGN kết hợp với một kho văn bản lớn vào công cụ là không khả thi bởi vì ràng buộc liên quan đến bộ nhớ trong của máy tính nên chúng tôi chọn một tập con của hai bộ từ vựng này. Đối với ULAN, chúng tôi ban đầu chỉ load danh sách các họa sĩ (the painters) (những nghệ sĩ đó mà vai trò của họ bao gồm cả khái niệm 'painter'), để lại cho chúng tôi với gần 30.000 thể hiện.
Thử nghiệm chỉ ra rằng các họa sĩ này, chỉ với một vị trí rất nhỏ xảy ra trong kho văn bản của chúng tôi. Tại cùng thời điểm đó, các nghệ sĩ đó không xuất hiện thường xuyên bởi vì sự thưa thớt (sparseness) và độ dài của nhãn (trong ULAN, phần lớn các thể hiện nghệ sĩ điều có nhãn dạng "firstname lastname" và "lastname, firstname", chỉ một số lỗi chính tả và bí danh được thêm vào). Bởi vậy, chúng tôi không thực hiện thêm việc hậu xử lý trên các nhãn ULAN: đầu tiên chúng tôi đã tìm một kho văn bản lớn nhất được sử dụng (xem bên dưới) với mẫu là [painte r ] sử dụng các nhãn thể hiện ULAN chuẩn để xác định cái nào trong số 30.000 họa sĩ (painters) thực sự xuất hiện trong kho văn bản. Trong một kho văn bản với 5000 trang, chúng tôi tìm thấy 1808 họa sĩ. Chúng tôi đã loại đi các họa sĩ mà không xuất hiện trong kho văn bản từ cơ sở tri thức. Đối với các nghệ sĩ còn lại, chúng tôi đã thêm vào nhãn bổ sung chỉ bao gồm họ của nghệ sĩ (surname) (vd: ’van Gogh’). Chúng tôi nhận dạng thủ công 19 surnames mà nó là những cái tên đầu tiên rất thường xuyên (vd: "Henri Paul"), đối với các nghệ sĩ với tên họ như vậy, chúng tôi chỉ giữ nhãn dài hơn và chặt chẽ hơn. Bước hậu xử lý giảm số lượng các thể hiện mà phải được đưa vào bộ nhớ trong của chương trình, trong khi nó làm tăng tần suất xuất hiện của các so khớp của các thể hiện trong kho văn bản bởi vì các nhãn đã được bổ sung là ít nghiêm ngặt (strict) hơn.
![]() |
Table 28: The frequencies of the results for three different single concept queries on three corpora of varying size |
Chúng tôi đã xây dựng một kho văn bản mô tả chủ yếu nghệ thuật châu Âu. Đối với câu truy vấn Google được sử dụng để xây dựng kho văn bản, chúng tôi đã sử dụng các nhãn của 10 phong cách nghệ thuật châu âu được sử dụng trong chương 2. Để nâng cao chất lượng của kho văn bản, từ "born", biểu diễn quan hệ đã được thêm vào câu truy vấn Google.
Để kiểm tra việc ảnh hưởng của kích thước kho văn bản đối với hiệu năng của phương pháp, chúng tôi đã trích xuất một kho văn bản lần lượt 1000, 2000 và 5000 trang sử dụng cùng một câu truy vấn Google, kết quả là kho văn bản nhỏ hơn là tập con (chứa trong) kho văn bản lớn hơn. Điều này được thực hiện do việc xếp hạng các trang của Google tương ứng với xếp hạng chất lượng kết quả. Vì vậy, việc lấy một kho văn bản lớn hơn không chắn chắn một cách tự động rằng sẽ có chất lượng cao hơn, bởi vì nhận được nhiều hơn các trang có xếp hạng thấp hơn. Trong bảng 28 đưa ra thống kê tần suất xuất hiện đối với một số các truy vấn tương ứng với các kho văn bản có kích thước khác nhau.
Bảng 28 chỉ ra rằng việc tăng kích thước của kho văn bản làm tăng tần suất của các kết quả nhận về hầu như là tuyến tính. Điều này có nghĩa rằng trong một miền, chất lượng của kho văn bản tăng tuyến tính với kích thước của kho văn bản. Đối với các thử nghiệm được mô tả dưới chúng tôi đã sử dụng kho văn bản lớn nhất với 5000 trang. Chúng tôi đã thực hiện thử nghiệm này với 3 mẫu khác nhau trong tính tổng quát. Các mẫu đã được sử dụng được liệt kê trong bảng 29.
![]() |
Table 29: The patterns used for the artist-birthplace relation extraction task, listed from top to bottom in ascending generality. |
Trong hình 18, 19 và 20 chúng tôi vẽ đồ thị giá trị độ chính xác, sai số và độ đo F tương ứng với các giá trị ngưỡng khác nhau. Ở đây, chúng tôi quan sát các đặc trưng giống nhau giống như trong các kết quả từ các thử nghiệm của miền các vị thần La Mã. Mẫu càng cụ thể hơn sẽ cho ta giá trị độ chính xác đối với từng giá trị ngương cụ thể sẽ cao hơn (với giá trị ngưỡng là 5, mẫu 1 và mẫu 2 mang lại giá trị độ chính xác là 1 à mẫu 3 mang lại giá trị độ chính xác là 0,80). Điều ngược lại cũng đúng với sai số: mẫu càng tổng quát hơn thì giá trị sai số càng cao hơn. So sánh với công việc trích xuất các thể hiện quan hệ của miền các vị thần La Mã, ở đây đồ thị của giá trị độ đo F thậm chí gần giống với đồ thị sai số do các giá trị sai số thậm chí thấp hơn.
Tổng số mẫu 1 chỉ nhận được 154 kết quả với tần suất lớn hơn bằng 1 trong khi mẫu 3 nhận được 1151 kết quả. Trong miền này nó cũng cần lưu ý rằng nếu chúng ta sử dụng mẫu tổng quát hơn, giá trị ngưỡng có thể được thay đổi hoặc là để đạt được sai số cao, độ chính xác thấp hoặc là ngược lại. Khi sử dụng mẫu cụ thể hơn, điều này chỉ có thể dẫn tới phạm vi hẹp hơn.
Như chúng ta đã thấy trong miền các vị thần La Mã, ở đây chúng ta cũng quan sát thấy rằng giá trị độ đo F đối với các mẫu tổng quát hơn cao hơn đối với các mẫu cụ thể hơn đối với tất cả các giá trị ngưỡng mà đã được đánh giá. Như vậy chúng ta có thể kết luận rằng nếu giá trị trung bình điều hòa được sử dụng như là tiêu chí đánh giá, sử dụng các mẫu tổng quát hơn thì cho hiệu suất tốt hơn. Đối với các ứng dụng khác nhau và các mức hậu xử lý khác nhau, các mẫu và các ngưỡng khác nhau được sử dụng. If for instance, the application calls for a very high precision, one can use the general pattern combined with a high threshold. Đối với mẫu 1, đánh giá tổng thể các kết quả có thể được sử dụng, đối với tất cả các ngưỡng lớn hơn 2, giá trị của độ chính xác là 1 (lưu ý rằng đối với các thể hiện quan hệ ứng viên với tần suất là 1, chúng tôi đã tìm thấy một vài lỗi).
Điều tương tự xảy ra đối với các nghệ sĩ (artists), một số nghệ sĩ có một hoặc nhiều hơn một nhãn mà chưa rõ ràng. Ví dụ, nghệ sĩ Richard Zimmermann cũng được biết đến với tên đơn giản là 'Richard'. Vì vậy, công cụ tOKo kết luận rằng mỗi khi xuất hiện từ 'Richard', đó thực sự không phải là phần của một tên dài hơn (bởi vì yêu cầu đứt đoạn trong mẫu), là một lần xuất hiện của nghệ sĩ Richard Zimmermann. Các kết quả này trong một số các thể hiện quan hệ ứng viên lỗi liên quan đến nghệ sĩ này. Dựa trên hai quan sát này, chúng tôi tin rằng việc sử dụng một danh sách dừng có thể làm tăng tốc hiệu suất của phương pháp này.
![]() |
Figure 18: Precision values for threshold values for each of the three patterns from Table 29 and of the post-processed results from Pattern 3. |
![]() |
Figure 19: Recall values for threshold values for each of the three patterns from Table 29 and of the post-processed results from Pattern 3 |
![]() |
Figure 20: F-measure values for threshold values for each of the three patterns from Table 29 and of the post-processed results from Pattern 3 |
Mặc dù việc sử dụng dư thừa dưới dạng của một ngưỡng mà lọc ra phần lớn các lỗi này, trong một vài trường hợp, các thể hiện quan hệ ứng viên lỗi này sẽ vẫn kết thúc với một tần suất cao hơn giá trị ngưỡng đó.
Một số các thể hiện quan hệ ứng viên liên quan đến nghệ sĩ mà không sinh ra ở châu Âu. Trong trường hợp đó, câu trả lời đúng không thể được tìm thấy, bởi vì chúng ta đã chọn TGN Ontology. Nhưng các câu trả lời sai có thể phát hiện qua các suy luận đã được đề cập. Điều này góp phần vào số lượng các lỗi, nhưng ảnh hưởng đến số lượng các thể hiện quan hệ chính xác. Điều này ám chỉ rằng độ đo sai số của chúng ta là khá chặt.
4.3.2.2 Pha hậu xử lý đối với lớp nghệ sĩ (Artist) và nơi sinh (Birthplaces)
Như chúng tôi đã giới thiệu trong phần trước, chúng ta có thể sử dụng tri thức nền tảng từ TGN để cải tiến hơn nữa các kết quả của pha trích xuất thông itn. Trong pha hậu xử lý đối với công việc này, chúng tôi kết hợp các thể hiện quan hệ ứng viên dư thừa với một ứng viên đơn bằng cách tính toán tần suất xuất hiện hiểu ngầm (implied frequencies) và chọn một thể hiện quan hệ ứng viên đơn cho một nghệ sĩ. Chúng tôi đã áp dụng phương pháp làm giàu này đối với các kết quả từ mẫu 3. Tất cả 1281 thể hiện quan hệ ứng viên với tần suất xuất hiện >1 được xử lý bằng các sử dụng phương pháp này.
Điều này đã mang lại 516 thể hiện quan hệ ứng viên, giảm sự dư thửa thông tin hơn một nửa. Trong số các thể hiện đã được chọn, chúng tôi đã đánh giá 64 thể hiện đã chọn với tần suất hiểu ngầm >4. Kết quả là các giá trị độ chính xác, sai số và độ đo F của các giá trị ngưỡng khác nhau trên tần suất xuất hiện hiểu ngầm được lần lượt thể hiện trong các hình 18, 19 và 20. Đối với giá trị ngưỡng là 4, độ chính xác là 0,76, nó gần giống với độ chính xác đối với các kết quả chưa được xử lý từ mẫu 3 đã mang lại đối với giá trị ngưỡng đó. Việc tính toán sai số là khá khác nhau, bởi vì một nghệ sĩ bây giờ chỉ có thể có một nơi sinh. Điều này có nghĩa rằng chúng ta chia số lượng các trích xuất chính xác theo số lượng các nghệ sĩ trong ontology để tính toán sai số (số nghệ sĩ là 1808). Điều này cho kết quả sai số là 0,031 với ngưỡng là 4, được so sánh với giá trị sai số là 0,012 đối với các kết quả chưa xử lý (được tính toán với sự thừa nhận đối với số lượng các thể hiện ứng viên đã được đánh giá là 5414). Độ sâu trung bình của khái niệm TGN trong thể hiện quan hệ ứng viên là 2,25. Trong cây con của TGN, độ sâu là 1 tương ứng với mức quốc gia, độ sâu là 2 tương ứng với mức các vùng và các thành phố chính và độ sâu > 3 tương ứng với các phân khu địa lý nhỏ hơn. Trung bình một thể hiện quan hệ ứng viên có một thành phố như là chủ ngữ của nó.
Phương pháp hậu xử lý đã không thực sự loại đi các thể hiện quan hệ ứng viên dư thừa bằng cách sử dụng tri thức nền tảng. Nếu chúng ta so sánh sai số của các kết quả chưa xử lý và kết quả sau pha hậu xử lý bằng cách chia các câu trả lời đúng thành các khối lượng tối đa của các thể hiện quan hệ mà sẽ được tìm thấy, sai số đó bởi vậy giá trị của độ đo F cũng được tăng lên.
4.3.2.3 Nghệ sĩ (Artists) và năm sinh (birth years)
Trong các phần tiếp theo, chúng tôi sẽ giới thiệu phương pháp trích xuất thông tin mà có thể được sử dụng cho nhiều các công việc khác nhau trong miền di sản văn hóa. Công việc thứ 2 trong miền di sản văn hóa là trích xuất các thê rhieenj quan hệ mà nó biểu thị năm sinh của nghệ sĩ. Đó là quan hệ sau: [ulan:Artist, ec:has_birthyear, Year].
Bởi vì các thông tin này đã được giới thiệu trong ULAN đối với tất cả các nghệ sĩ, quá trình đánh giá hoàn toàn tự động và minh bạch. Các kết quả từ phương pháp trích xuất thông tin không mang lại thông tin mới. Chúng tôi chỉ ra rằng đay là ví dụ của hiệu suất thực hiện của phương pháp đối với công việc cụ thể trong miền di sản văn hóa.
Đối với thử nghiệm này, chúng tôi đa sử dụng cùng một kho văn bản với 5000 tài liệu và 1808 nghệ sĩ đã được xử lý trong ontology như trong phần 4.3.2.2. Đối với thử nghiệm này chúng tôi chỉ đánh giá một mẫu đơn, nó là một mẫu rất cơ bản (mẫu 3) từ phần trên nơi mà các mẫu con đối với địa điểm được thay thế bởi một mẫu mà trích xuất theo năm (4 số nguyên):
{ [painter; disj ] ∧ hword; capti }{|_} ...10 (born) ...20
<integer; chars = 4>
Sử dụng mẫu này, pha trích xuất thông tin đã mang lại 1129 thể hiện quan hệ ứng viên. Các kết quả đac được tự động đánh giá theo các thông tin ngày sinh từ ULAN. Trong bảng 31, chúng tôi đưa ra 18 kết quả đầu tiên.
Việc đánh giá lại các kết quả đã chỉ ra rằng với một ngưỡng thấp hơn sẽ dẫn đến một giá trị độ đo F cao hơn mà nguyên nhân của nó là do các giá trị sai số thấp. Các giá trị sai số thấp này là kết quả của một danh sách lớn các nghệ sĩ. Bởi vậy giá trị độ đo F tối đa đã đạt được khi sai số là tối đa, nếu ngưỡng là 1. Trong trường hợp 351 trong số 1129 quan hệ ứng viên là đúng, dẫn đến giá trị độ chính xác là 0,31, sai số là 0,19 và giá trị độ đo F là 0,24.
![]() |
Table 31: The first 18 results of extracting instances of the artist-birth year relation |
4.3.2.4 Nghệ sĩ (Artists) và phong cách nghệ thuật (art styles)
Quan hệ thứ 3 chúng ta sẽ thực hiện đối với nghệ sĩ sử dụng phương pháp này là quan hệ has_style (có phong cách), nó là quan hệ ngược lại của quan hệ has_artist từ chương 2. Đối với quan hệ này, chúng tôi đã trích xuất ontology với 10 phong cách nghệ thuật hiện đại từ bộ từ điển Getty Art và Architecture mà nó cũng được sử dụng để xây dựng kho văn bản. Chúng tôi đã thực hiện phương pháp trích xuất thông tin này với một mẫu tổng quát. Tại thời điểm này, các mẫu con đối với quan hệ này đã bị bỏ ra, bởi vì quan hệ has_style có thể có nhiều sự xuất hiện trong văn bản. Mẫu kết quả là:
{ [painte r; disj ] ∧ <word; capt> }{|_} ...10 [style; disj]
Mẫu này đã được thực hiện cùng trên một kho văn bản với 5000 tài liệu. Các tổ hợp của 970 phong cách nghệ thuật - nghệ sĩ khác nhau đã được tìm thấy trong kho văn bản. Trong số các kết quả này, chúng tôi đã đánh giá tất cả các thể hiện quan hệ ứng viên với tần suất xuất hiện là 5 hoặc lớn hơn. Ở đây các tiêu chí đánh giá là không rõ ràng được như trong các thử nghiệm trước. Như chúng tôi đã tìm thấy trong chương 2, thường không rõ ràng từ các văn bản miền di sản văn hóa có hay không một nghệ sĩ liên quan đến một phần của một phong cách nghệ thuật hay một phần của phong trào.
Ở đây, chúng tôi đã chấp nhận các tiêu chí đánh giá tương tự như chúng tôi đã làm trong chương 2: Đối với mỗi ứng viên thể hiện quan hệ artist-art style, chúng tôi tra cứu từ trang Wikipedia của nghệ sĩ đó và 10 trang đầu tiên mà Google trả về cho nghệ sĩ đó. Nếu một trong các trang này tuyên bố rõ ràng rằng nghệ sĩ đó đã tạo ra các tác phẩm nghệ thuật theo các phong cách đó, chúng tôi sẽ đánh giá nó là đúng. Nếu một nghệ sĩ có một quan hệ khác nhau với phong cách nghệ thuật (vd: "bị ảnh hưởng bởi"), thể hiện quan hệ ứng viên được đánh giá là không chính xác. 18 kết quả đầu tiên được đưa ra trong bảng 32.
![]() |
Table 32: The first 18 results of extracting instances of the artist-art style relation |
Để tính toán sai số, cần tổng số các thể hiện quan hệ được nhận diện trong kho văn bản. Chúng tôi không có phương tiện tính toán con số này một cách trực tiếp và việc đếm thủ công các thể hiện quan hệ có thể trong số 5000 tài liệu là không khả thi. Bởi vậy, chúng tôi bị hạn chế trong việc ước tính con số này. Đầu tiên, không phải tất cả 1808 nghệ sĩ đều có quan hệ has_artist đối với một trong 10 phong cách nghệ thuật từ ontology, bởi vì các phong cách nghệ thuật này là không toàn diện. Để tính toán sai số, chúng ta chỉ quan tâm đến các nghệ sĩ mà ngày sinh của họ trong khoảng 50 năm của thời kỳ của 10 phong cách nghệ thuật đó (1800 - 2000), giúp loại đi 1239 nghệ sĩ. Chúng tôi cũng cần ước lượng con số trung bình của các phong các nghệ thuật mà một nghệ sĩ có thể thuộc về (Dali được coi là một họa sĩ lập thể, một dadaist và một siêu thực) tương tự với miền của các vị thần trong phần 4.3.1. Chúng tôi đã đánh giá con số này bằng việc lấy con số trung bình của các phong cách nghệ thuật đối với các quan hệ ứng viên được đánh giá là đúng, giá trị là 1,06. Phương pháp này mang lại một ước lượng khoảng 1313 thể hiện ứng viên mà sẽ nhận được bởi phương pháp này.
Số lượng các kết quả cao này lại trong một tập các giá trị sai số rất thấp. Với giá trị ngưỡng là 5, 94 thể hiện quan hệ ứng viên chính xác được tìm thấy, cho kết quả sai số là 0.072. Kết hợp với giá trị độ chính xác là 0,55, giá trị độ đo F là 0,13. Với giá trị ngưỡng tương đối cao (23) thì độ chính xác đạt 0,75, sai số đạt 0,014 dẫn đến kết quả là giá trị độ đo F là 0,027.
Một số lỗi có thể xảy ra trong pha thứ 2 của phương pháp này, nơi mà các so khớp mẫu (partern matches) là được ánh xạ đến các thể hiện không chính xác. The artist ’Jules Breton’ in the third most frequent candidate relation found is not a surrealist but a 19th Century Realist painter. Tuy nhiên, trong kho văn bản này, cả ông ta và Surrealist Andre Breton đều xuất hiện với tên đầy đủ của họ. Do điều này, họ đều được tiếp tục giữ lại trong danh sách hậu xử lý của 1808 họa sĩ ULAN được tìm thấy trong kho văn bản. Vì cả các họa sĩ trong danh sách ULAN nhận tên họ (’Breton’) đều được thêm nhãn bổ sung. Trong pha so khớp mẫu, mỗi lần xuất hiện của cái tên ’Breton’ sau đó sẽ được ánh xạ tới một trong các họa sĩ này. Công việc so khớp sau đó sẽ chọn thể hiện mà xuất hiện sớm nhất trong danh sách và trong trường hợp này, đó là thể hiện không chính xác: Jules Breton, trong khi hầu hết các tài liệu trong kho văn bản đều mô tả surrealist Andre Breton. Ở đây bước tiền xử lý mang tính định hướng của việc lọc các họa sĩ trong danh sách ULAN là không đủ, các bước định hướng bổ sung sẽ cần để giải quyết hoàn toàn các lỗi này.
Một lỗi tương tự xảy ra đối với thể hiện quan hệ ứng viên mà nó nhận ra Vincent van Gogh là người theo trường phái ấn tượng (impressionist). Thực tế, van Gogh được coi như là người theo trường phái hậu ấn tượng (postimpressionist), nhưng phong cách nghệ thuật đó không xuất hiện trong ontology của chúng ta (nó là một trong 10 phong cách nghệ thuật đã được sử dụng). Bởi vì điều này, một câu như là 'van Gogh is is considered part of post-impressionism' được ánh xạ bởi phương pháp đối với thể hiện quan hệ lỗi trong đó ’post-’ so khớp với 0...10 0 phần của mẫu đó.
Một loại lỗi khác chiếm ưu thế được tạo ta do mẫu được sử dụng không biểu diễn thỏa đáng quan hệ đích nhưng lấy ra một số các thể hiện giống nhau, nhưng các quan hệ khác nhau giữa nghệ sĩ và phong cách nghệ thuật. Một ví dụ tốt của lỗi này là thể hiện quan hệ ứng viên từ ’Manet’ tới ’Impressionism’. Trong miền này các văn bản mà chúng tôi đã sử dụng để đánh giá, Manet thương được đề cập đến trong ngữ cảnh của impressionism, không như là một trong số các xu hướng (movement) nghệ thuật nhưng như là một ảnh hưởng chính trong phong cách nghệ thuật đó. Tập hợp từ 'Edouard Manet was a great influence on impressionism' khớp với mẫu của chúng ta và đưa ra một quan hệ ứng viên không chính xác. Các quan hệ không chính xác khác giữa nghệ sĩ và phong cách nghệ thuật ('bị ảnh hưởng bởi', 'vẽ tranh với phong các tương tự với', ...) cũng được tìm thấy theo phong cách này.
Chúng tôi có thể kết luận rằng mẫu mà chúng tôi đã sử dụng đủ tổng quát cho công việc trích xuất tự động thể hiện quan hệ cụ thể này. Đối với công việc này, thật khó để để đến với một mẫu mà không phải là quá chung chung chưa nắm bắt được nhiều cách khác nhau mà trong đó quan hệ được viết xuống kho văn bản.
4.3.2.5 Artists và artists
Chúng tôi đã điều tra công việc trích xuất tự động thể hiện quan hệ trong miền này. Ở đây mục tiêu là tìm ra các quan hệ chưa định nghĩa giữa hai nghệ sĩ (is_related_to). Chúng ta không hạn chế các loại quan hệ, vì vậy như là mẫu con đối với quan hệ chúng ta sử dụng ... 10 and ... 10. Các kết quả này trong mẫu dưới đây:
{ [painter; disj ] ∧ <word; capt> }{|_} ...10 and ...10 { [painter; disj ] ∧<word; capt>}
Bởi vì ngữ nghĩa của quan hệ là không rõ ràng, mỗi nghệ sĩ có liên quan đến mỗi nghệ sĩ khác theo cách này hay các khác, nên việc đánh giá kết quả không phải là công việc hữu ích. Ở đây chúng tôi chỉ đưa ra các kết quả chưa được đánh giá như là một ví dụ. Quan hệ 'is_related_to' là một quan hệ đối xứng và sự xuất hiện của quan hệ R(i, j) và R(j, i) đều được thêm vào trong pha hậu xử lý. Phương pháp này nhận được 3103 thể hiện quan hệ ứng viên, 952 trong số đó xuất hiện với tần suất là 2 hoặc cao hơn (phân bố của tần xuất xuất hiện gần giống với phân bố Zipf). Xem xét các kết quả đã chỉ ra cho chúng ta rằng các quan hệ nhận được giữa các nghệ sĩ, bao gồm các quan hệ ’collaborated with’, ’teacher of’ và ’worked in the same style as'. Trong bảng 33, chúng tôi chỉ ra rằng 18 kết quả với các tần suất cao nhất.
Các thể hiện quan ứng viên có thể được xử lý tốt hơn để nhận ra các loại quan hệ khác nhau ( các quan hệ teacher/student, các quan hệ family, vv.) trước khi thêm chúng vào trong cơ sở tri thức. Cách sử dụng thứ 2 là để xây dựng một tập các quan hẹ xã hội đối với miền di sản văn hóa với các thể hiện quan hệ ứng viên này. Các kết quả cũng có thể được sử dụng như là các tri thức nền tảng để cải tiến các công việc trích xuất thông tin khác. Ví dụ, nếu 2 nghệ sĩ là có quan hệ mật thiết với nhau, cơ hội để chúng cùng có phong cách nghệ thuật là tăng lên. Trong chương 5, chúng tôi thảo luận làm thể nào để các tri thức nền tảng và các kết quả từ các phương pháp làm giàu ontology có thể được kết hợp lại với nhau.
4.4 Kết luận và các công việc tiếp theo
Trong chương này, chúng tôi đã mô tả một phương pháp trích xuất các thể hiện quan hệ, một trong những thành phần của công việc làm giàu ontology. Phương pháp này được cài đặt như cách mà nó có thể làm việc với một danh sách lớn các thể hiện. Nó sử dụng các mẫu được làm thủ công và được thực hiện trên kho văn bản được lấy từ WWW. Các kết quả nhận được bằng việc sử dụng công cụ phân tích văn bản tOKo và được phân tích bằng cách sử dụng các hàm API của công cụ đó. Trái ngược với phương pháp chúng tôi đã trình bày trong chương 2, chúng tôi thực hiện việc tạo ra kho văn bản mới đối với mỗi thể hiện i, nhưng sẽ trích xuất một kho văn bản cho toàn bộ miền, đó là đối với toàn bộ tập Ii. Điều này giúp cho có khả năng có một khối lượng lớn các thể hiện mà trong tập các thể hiện đó không làm tăng độ phức tạp Google của phương pháp này [Geleijnse et al., 2006].
![]() |
Table 33: The first 18 results of extracting instances of the artist-artist relation |
Trong cả hai thử nghiệm mà khám phá ra sự ảnh hưởng của việc thay đổi các mẫu một cách tổng quát, các giá trị của độ đo F được xác định chính bởi các giá trị sai số thấp tương ứng. Các giá trị sai số thấp này là nguyên nhân chính bởi khối lượng lớn các thể hiện mà đối với nó các thể hiện quan hệ được tìm thấy mà đã xuất hiện trong cả công việc trích xuất thông tin miền các vị thần La Mã và di sản văn hóa. Thậm chí, với một kho văn bản tương đối lớn với khoảng 5000 tài liệu trong thử nghiệm sau, quan hệ nghệ sĩ - nơi sinh xuất hiện rất thưa thớt và với nhiều biến đổi dạng văn bản trong kho văn bản, kết quả là giá trị sai số thấp.
Nói chung, bởi vì hầu hết các xuất hiện của các sự kiện ngôn ngữ tự nhiên theo phân bố Zipf, điều này có nghĩa rằng phần lớn các sự kiện này là được trích xuất (those in the ’long tail’ of the distribution) sẽ xuất hiện với một tần suất xuất hiện thấp. Nếu kho văn bản là hữu hạn và danh sách các thể hiện có thể được tìm thấy là đủ lớn mà dữ liệu này là thưa thớt sẽ xuất hiện với tất cả các mẫu. Trong trường hợp đó, việc sử dụng nhiều hơn các mẫu tổng quát kết hợp với một ngưỡng, do đó việc khai thác tính dư thừa sẽ có ảnh hưởng có lợi với hiệu năng. Đối với các công việc trích xuất thế giới đồ chơi nhỏ nơi mà khối lượng nhỏ các thể hiện quan hệ là được tìm thấy, việc sử dụng khả năng dư thừa thông tin sẽ không cần thiết để tăng tổng hiệu năng. Đối với các công việc trích xuất thể hiện quan hệ nơi mà việc làm giàu thủ công là không khả thi do khối lượng lớn các thể hiện quan hệ đích, sử dụng tính dư thừa thông tin sẽ không có ích. Đối với các bài toán làm giàu ontology thế giới thực đối với các bài toán đó các phương pháp trích xuất dữ liệu bán tự động là cần thiết, các tập lớn thể hiện quan hệ này là đặc tính công việc thực tế. Đối với tập nhỏ hơn các thể hiện thì các phương pháp bán tự động sẽ không cần thiết.
Chúng tôi đã chỉ ra phương pháp có thể ứng dụng trong nhiều miền và, bên trong các miền này, ngang qua một loạt các công việc trích xuất dữ liệu. Mặc dù các giá trị sai số là tương đối thấp đối với các tập các thể hiện lớn, các giá trị độ chính xác tương ứng là đạt yêu cầu đối với các công việc trích xuất dữ liệu.
Một quan sát có thể được làm qua các miền khác nhau, các công việc và mẫu là các chuỗi của các thể hiện quan hệ ứng viên
We have shown that the method is applicable in multiple domains and, within these domains, across a range of extraction tasks. Although recall values are relatively low for larger sets of instances, the corresponding precision values are satisfactory across the extraction tasks.
An observation that can be made across the different domains, tasks and patterns is that frequencies of the resulting candidate relation instances show an adherence to the Zipf distribution of term frequencies [Zipf, 1949, Li, 1992]. That is, for each relation extraction task, we observed a very small amount of relation instances that occur with a high frequency and a very large amount of relation instances that occur with a low frequency.
The method described in this chapter relies heavily on the manual input, consisting of both the Google query that is used to extract the working corpus and the actual extraction patterns used in the tOKo tool. The quality of the extracted relation instances relies mainly on the quality of the handcrafted patterns. In this chapter, we have provided a number of guidelines to construct extraction patterns for finding relation instances.
No comments:
Post a Comment