ABSTRACT
Discovering mappings between concept hierarchies is widely regarded as one of the hardest and most urgent problems facing the Semantic Web. The problem is even harder in domains where concepts are inherently vague and ill-defined, and cannot be given a crisp definition. A notion of approximate concept mapping is required in such domains, but until now, no such notion is available.
Phát hiện ánh xạ giữa các phân cấp khái niệm được coi như là các vấn đề khó khăn và cấp bách nhất đang phải đối mặt đối với web ngữ nghĩa. Bài toán này thậm chí còn khó khăn hơn trong các lĩnh vực mà các khái niệm mơ hồ và không rõ ràng, và không thể đưa ra một định nghĩa rõ nét. Khái niệm của việc thiết lập ánh xạ giữa các khái niệm một cách tương đối là cần thiết trong các lĩnh vực này, nhưng cho đến nay chưa có khái niệm như vậy.
Phát hiện ánh xạ giữa các phân cấp khái niệm được coi như là các vấn đề khó khăn và cấp bách nhất đang phải đối mặt đối với web ngữ nghĩa. Bài toán này thậm chí còn khó khăn hơn trong các lĩnh vực mà các khái niệm mơ hồ và không rõ ràng, và không thể đưa ra một định nghĩa rõ nét. Khái niệm của việc thiết lập ánh xạ giữa các khái niệm một cách tương đối là cần thiết trong các lĩnh vực này, nhưng cho đến nay chưa có khái niệm như vậy.
The first contribution of this paper is a definition for approximate mappings between concepts. Roughly, a mapping between two concepts is decomposed into a number of submappings, and a sloppiness value determines the fraction of these submappings that can be ignored when establishing the mapping.
Đóng góp đầu tiên của bài báo này là đưa ra một định nghĩa về việc ánh xạ tương đối giữa các khái niệm. Có thể hiểu đơn giản, một ánh xạ giữa hai khái niệm bao gồm các ánh xạ con (submappings) và một giá trị cảm tính (sloppiness value) nhằm xác định các phần của các ánh xạ con này mà nó có thể bị bỏ qua khi thiết lập ánh xạ.
Đóng góp đầu tiên của bài báo này là đưa ra một định nghĩa về việc ánh xạ tương đối giữa các khái niệm. Có thể hiểu đơn giản, một ánh xạ giữa hai khái niệm bao gồm các ánh xạ con (submappings) và một giá trị cảm tính (sloppiness value) nhằm xác định các phần của các ánh xạ con này mà nó có thể bị bỏ qua khi thiết lập ánh xạ.
A potential problem of such a definition is that with an increasing sloppiness value, it will gradually allow mappings between any two arbitrary concepts. To improve on this trivial behaviour, we need to design a heuristic weighting which minimises the sloppiness required to conclude desirable matches, but at the same time maximises the sloppiness required to conclude undesirable matches. The second contribution of this paper is to show that a Googlebased similarity measure has exactly these desirable properties.
Một vấn đề cần phải nghiên cứu của định nghĩa là khi mà tăng giá trị cảm tính lên, nó sẽ dần cho phép ánh xạ giữa hai khái niệm tùy ý. Để cải tiến hành vi tầm thường này, chúng ta cần thiết kế một trọng số heuristic, nó sẽ tối thiểu hóa yêu cầu có tính cảm tính cần thiết để đưa ra kết luận các ghép nối (matches) mong muốn, nhưng đồng thời cũng tối đa đa yêu cầu có tính cảm tính để kết luận các ghép nối là không mong muốn. Đóng góp thứ hai của bài báo này là chỉ ra rằng độ đo tương tự dựa trên google có độ chính xác mong muốn.
Một vấn đề cần phải nghiên cứu của định nghĩa là khi mà tăng giá trị cảm tính lên, nó sẽ dần cho phép ánh xạ giữa hai khái niệm tùy ý. Để cải tiến hành vi tầm thường này, chúng ta cần thiết kế một trọng số heuristic, nó sẽ tối thiểu hóa yêu cầu có tính cảm tính cần thiết để đưa ra kết luận các ghép nối (matches) mong muốn, nhưng đồng thời cũng tối đa đa yêu cầu có tính cảm tính để kết luận các ghép nối là không mong muốn. Đóng góp thứ hai của bài báo này là chỉ ra rằng độ đo tương tự dựa trên google có độ chính xác mong muốn.
We establish these results by experimental validation in the domain of musical genres. We show that this domain does suffer from ill-defined concepts. We take two real-life genre hierarchies from the Web, we compute approximate mappings between them at varying levels of sloppiness, and we validate our results against a handcrafted Gold Standard.
Chúng tôi có được các kết quả này bằng cách kiểm tra thực nghiệm trong lĩnh vực của các thể loại âm nhạc. Chúng tôi chỉ ra rằng lĩnh vực này không chứa các khái niệm không rõ ràng. Chúng tôi lấy hai phân loại thể loại thực tế từ trên Web, sau đó chúng tôi tính toán ánh xạ tương đối giữa chúng ở một loạt các mức cảm tính khác nhau, và sau đó chúng tôi kiểm tra lại các kết quả của chúng tôi bằng tay theo chuẩn Gold Standard.
Chúng tôi có được các kết quả này bằng cách kiểm tra thực nghiệm trong lĩnh vực của các thể loại âm nhạc. Chúng tôi chỉ ra rằng lĩnh vực này không chứa các khái niệm không rõ ràng. Chúng tôi lấy hai phân loại thể loại thực tế từ trên Web, sau đó chúng tôi tính toán ánh xạ tương đối giữa chúng ở một loạt các mức cảm tính khác nhau, và sau đó chúng tôi kiểm tra lại các kết quả của chúng tôi bằng tay theo chuẩn Gold Standard.
Our method makes use of the huge amount of knowledge that is implicit in the current Web, and exploits this knowledge as a heuristic for establishing approximate mappings between ill-defined concepts.
Phương pháp của chúng tôi sử dụng khối lượng lớn tri thức ẩn chứa trên Web hiện nay, và tận dụng các tri thức này như là một heuristic để xây dựng các ánh xạ tương đối giữa các khái niệm không rõ ràng.
Phương pháp của chúng tôi sử dụng khối lượng lớn tri thức ẩn chứa trên Web hiện nay, và tận dụng các tri thức này như là một heuristic để xây dựng các ánh xạ tương đối giữa các khái niệm không rõ ràng.
1. INTRODUCTION & MOTIVATION
1.1 Introduction
The progress of information technology has made it possible to store and access large amounts of data. However, since people think in different ways and use different terminologies to store information, it becomes hard to search each other’s data stores. With the advent of the Internet, which has enabled the integrated access of an ever-increasing number of such data stores, the problem becomes even more serious.
Sự tiến bộ của công nghệ thông tin giúp cho chúng ta có khả năng lưu trữ và truy cập một khối lượng lớn dữ liệu. Tuy nhiên, từ khi con người nghĩ và sử dụng các thuật ngữ theo các cách khác nhau để lưu trữ thông tin, nó gây ra khó khăn trong việc tìm kiếm trong các kho dữ liệu của nhau. Với sự ra đời của Internet, điều này giúp cho việc truy cập tích hợp (một cửa) đến các kho dữ liệu ngày một tăng, khi đó vấn đề thậm chí còn nghiêm trọng hơn.
Sự tiến bộ của công nghệ thông tin giúp cho chúng ta có khả năng lưu trữ và truy cập một khối lượng lớn dữ liệu. Tuy nhiên, từ khi con người nghĩ và sử dụng các thuật ngữ theo các cách khác nhau để lưu trữ thông tin, nó gây ra khó khăn trong việc tìm kiếm trong các kho dữ liệu của nhau. Với sự ra đời của Internet, điều này giúp cho việc truy cập tích hợp (một cửa) đến các kho dữ liệu ngày một tăng, khi đó vấn đề thậm chí còn nghiêm trọng hơn.
The Semantic Web aims to use semantics in the retrieval process, where the semantics is captured in ontologies or at the very least in concept hierarchies. The task then is to find pairs of concepts from different meta-data schemas that have an equivalent meaning, a problem known as ontology matching. This problem has been extensively studied in the Semantic Web and elsewhere, see [1, 2, 3, 4, 5] for recent survey papers.
However, in many realistic domains, it is impossible to give precise concept definitions, and consequently no crisp notion of concept equivalence exists. Below we will illustrate this in the musicdomain (an important commercial domain on the Web), where musical genres are inherently imprecise. Such imprecision is a fundamental aspect of many other domains as well. Ontology matching must then be redefined to finding a concept with the closest meaning in the other schema when an equivalent one does not exist. We then require mechanisms that are able to find approximate correspondences rather than exact ones.
The first contribution of this paper is to define a notion of approximate ontology matching between inherently imprecise domain concepts (section 2). In section 3 we refine this definition with a weighting function to ensure that the approximation method does not simply allow any mappings, but that correct approximations are favoured over incorrect ones. As the second main contribution of this paper, in section 3.3, we instantiate this weighting function with a Google-based scheme, and show in section 4 through experiments in the music domain that this weighting scheme has indeed the desired behaviour of increasing recall without loosing precision.
Before moving to the technical part of the paper, we first briefly introduce the domain of musical genres, and will argue why this is an appropriate domain for investigating techniques for approximate ontology mapping
No comments:
Post a Comment