O bazie wiedzy

Inżynieria ontologiczna zajmuje się reprezentacją i udostępnianiem wiedzy w sposób możliwie jednoznaczny i przetwarzalny komputerowo. Odnosi się do konceptualizacji, czyli sposobu myślenia o jakiejś dziedzinie przedmiotowej i komunikowania się w pewnej społeczności. Wytwory tej dziedziny inżynierii, nazywane ontologiami, stanowią wspólną podstawę pojęciową pozwalającą na łatwy i precyzyjny transfer informacji.

Ontologie stały się w ostatnich latach popularne w nauce, ze względu na potrzebę wymiany danych między ośrodkami badawczymi. Okazuje się bowiem, że dane zbierane w różnych laboratoriach są często nieporównywalne ze względu na różnice w używanej terminologii i sposobie organizacji informacji. Ontologie występują w tym kontekście jako lingua franca, język wspólny, pozwalający stworzyć platformę porozumienia i wspóldzielenia informacji.

W projekcie ProOptiBeef zastosowaliśmy innowacyjną metodologię budowania bazy wiedzy na podstawie ontologii i użycia ontologii jako centralnego punktu tej bazy pozwalającego na łatwe i intuicyjne dotarcie do interesujących użytkownika treści pochodzących z różnych źródeł informacji.

Składniki OntoBeef

Tezaurus

Tezaurus OntoBeef Domain jest podstawową strukturą porządkującą wiedzę z dziedziny i dającą użytkownikowi dostęp do dalszych informacji. Jego sieciowa struktura pozwala na interaktywne przeglądanie: zaznajomienie się z definicjami występujących w nim pojęć oraz przechodzenie poprzez aktywne linki do pojęć powiązanych.

Tezaurus powstał na bazie słów kluczowych zaczerpniętych z artykułów naukowych dotyczących produkcji i konsumpcji wołowiny. Wykorzystane zostały w nim wszystkie słowa kluczowe pochodzące z ponad dwóch tysięcy artykułów naukowych, pokrywa więc tematycznie całość dziedziny. Zaczynając od płaskiej struktury “bag of concepts” otrzymaliśmy jako rezultat model grafu, w którym istoną rolę odgrywa struktura taksonomiczna klas/pojęć.

Wszystkie pojęcia są podzielone zgodnie z ontologią DOLCE na cztery grupy: obiekty, procesy, cechy oraz przestrzenie metryczne.

Przykład kategorii DOLCE

Podstawowa struktura OntoBeef Domain została zweryfikowana przez ekspertów dziedzinowych. Ocenie eksperckiej podlegał zarówno dobór używanej terminologii (wybór najwłaściwszych terminów fachowych i wskazanie ich synonimów bądź odpowiadających im terminów potocznych i żargonowych) jak i struktura taksonomii (odzwierciedlająca wzajemne stosunki pomiędzy pojęciami). W naszej aplikacji pojęcia “zwalidowane” mają stosowną adnotację zawierającą listę ekspertów odpowiedzialnych za poprawność semantyczną i merytoryczną struktury.

Korzystając z możliwości jakie daje Linked Open Data (LOD) dokonaliśmy również połączenia pojęć OntoBeef Domain z innymi projektami LOD takimi jak: Agrovoc opracowany przez Organizację Narodów Zjednoczonych (używany też przez Centralną Bibliotekę Rolniczą do opisu publikacji naukowych), tezaurus National Agriculture Library, Wikipedia, DBpedia oraz tezaurus STW.

Z pojęciami występującymi w tezaurusie powiązane są również wszystkie inne elementy bazy wiedzy, tzn. baza danych artykułów naukowych oraz prezentacja treści tych artykułów. W związku z tym tezaurus stanowi ‘bramę’ przez którą wchodzi się do bazy wiedzy stanowiąc bardzo komfortowe narzędzie jej eksploracji.

Baza publikacji naukowych

Baza publikacji naukowych gromadzi prace naukowe związane z mięsem wołowym. Stanowi unikalny w skali światowej zbiór literaturowy zbierający najważniejsze artykuły z dziedziny opublikowane na całym świecie w okresie ostatnich kilkunastu lat. Dla ułatwienia przeglądania i wyszukiwania informacji zaimplementowano innowacyjne rozwiązania semantycznego przeszukiwania treści artykułów wykorzystującego ontologie dziedziny.

U początków realizacji projektu ProOptiBeef publikacje wybierane były ręcznie i wprowadzane do bazy. Aktualnie baza wiedzy OntoBeef korzysta z możliwości automatycznego pobierania treści z Centralnej Biblioteki Rolniczej oraz wydawnictwa Elsevier. Baza jest uaktualniana na bieżąco o nowe teksty.

Artykuły są dostępne poprzez innowacyjny interfejs pozwalający na wyszukiwanie artykułów poprzez pojęcie ontologii OntoBeef Domain. Wyszukiwanie wykorzystuje poza standardowymi metodami wyszukiwania opartymi o słowa kluczowe i autorów i czasopisma technologię Sztucznej Inteligencji wybierającą artykuły na podstawie podobieństwa treści związanego z powiązaniem w ontologii. Słowo, według którego następuje wyszukiwanie nie musi więc wprost występować w opisie artykułu, ale może być ze słowem kluczowym na różne sposoby ‘spokrewnione’. Szukając informacji o trawie (w kontekście wołowiny) możemy więc być zainteresowani również artykułami o opasie pastwiskowym (bo na pastwisku rośnie trawa) bądź o życicy (jako o gatunku trawy używanym w chowie bydła) i semantyczne rozwiązania wykorzystywane w naszej wyszukiwarce takie artykuły podpowiadają.

Dodatkowo użytkownik możne dotrzeć do artykułu poprzez twierdzenia w nich zawarte w oparciu o reprezentacje tez.

Analiza tez naukowych

W projekcie ProOptiBeef stworzyliśmy mechanizmy istotnie ułatwiające śledzenie publikacji naukowych oraz ich treści. Stworzyliśmy system informatyczny pozwalający na gromadzenie informacji o nowych publikacjach z wybranych czasopismach naukowych, aby następnie w oparciu o skonstruowaną strukturę pojęciową opisać każdy nowy artykuł. Dzięki temu możliwe jest inteligentne wyszukiwanie artykułów na dany temat.

Dodatkowo opracowaliśmy metodę selekcji i opisu zależności zawartych w artykułach. Pozwala ona na reprezentację najważniejszych rezultatów zawartych w pracach naukowych w sposób łatwo przetwarzalny i wyszukiwalny komputerowo. Dzięki takiej reprezentacji użytkownik uzyskuje w krótkim czasie informację pozwalającą podjąć mu decyzję, czy dany artykuł jest dla niego interesujący czy nie.

Zgomadzona w ten sposób wiedza w postaci najważniejszych zdań z prac naukowych jest dalej przetwarzana przez algorytmy Sztucznej Inteligencji. Pozwalają one na znajdowanie niespójności pomiędzy wieloma pracami naukowymi, np. znajdowanie sprzeczności. Gromadzone są również informacje dotyczące ilości artykułów jakie wspierają lub przeczą danej tezie. Dodatkowo system pozwala na generowanie nowej wiedzy (w kontekście korpusu zgromadzonych prac). Każda nowa teza naukowa znaleziona w wyniku przeprowadzonej dedukcji może być punktem wyjścia do nowych badań.

Korzystanie z OntoBeef KB w tworzeniu publikacji naukowych

Każdy użytkownik bazy wiedzy OntoBeef może tworzyć własne "koszyki" zawierające artykuły lub tezy związane z interesującym dla użytkownika tematem. Koszyki mogą być współdzielone, tj. tworzone wspólnie przez wiele osób.

Wyselekcjonowane artykuły, wraz z tezami, użytkownik może w prosty sposób zamienić na bibliografię w formatach akceptowalnych przez edytory Microsoft Word i TeX i zamieścić je w pisanym przez siebie artykule. Dodatkowo system pozwala wygenerować nowy, gotowy plik “docx” z treścią tez i wczytaną bibliografią. Moży być o punktem wyjścia do pisania nowego artykułu.

Wiedza z publikacji dla praktyków

Praktycy nie mogą poświecać zbyt wiele czasu na czytanie i analizę publikacji naukowych. Dla nich został zbudowany mechanizm nawigowania po tezach/zależnościach potwierdzonych lub odrzuconych przez naukowców. Ten mechanizm pozwala na szybki przegląd literatury pod kątem praktycznych problemów do rozwiązania, bez konieczności wgłębiania się w treść publikacji naukowych.

Szybszy dostęp do wiedzy

Mechanizm zbudowany dla praktyków może być wykorzystywany przez początkujących naukowców, studentów, doktorantów dla szybszego dostępu do wiedzy w interesującyh ich obszarach w domenie badań z zakresu produkcji i konsumpcji wołowiny. Nawigowanie po tezach pozwala w szybki sposób dotrzeć do wiedzy uznanej oraz do tez kontrowersyjnych. Mechanizm budowania bibliografii i generowania pliku docx z tezami naukowymi umożliwia proste przejście od analizy literatury naukowej do tworzenia własnej pracy naukowej.