Nauka dla Społeczeństwa

20.04.2024
PL EN
27.02.2013 aktualizacja 27.02.2013

Wielka sieć relacji między polskimi słowami udostępniona

Słownik zawierający sieć ponad 100 tys. polskich pojęć, powiązanych ze sobą relacjami, udostępniają za darmo naukowcy z Politechniki Wrocławskiej. Słowosieć przyda się zarówno informatykom w komputerowym przetwarzaniu tekstów, jak i zwykłym użytkownikom języka.

Badacze z Politechniki Wrocławskiej z Grupy Technologii Językowych G4.19 podjęli się trudnego zadania - zamierzają opisać aż 200 tys. pojęć z języka polskiego poprzez pokazanie ich relacji z innymi słowami. Każde hasło ze słownika znajdzie więc swoje miejsce w sieci znaczeń.

Jak zaznacza kierownik projektu, dr Maciej Piasecki, za naukowcami dopiero połowa pracy, ale nawet teraz jest to jeden z największych słowników języka polskiego i jeden z dwóch największych na świecie słowników typu wordnet. Słownik może sobie pobrać za darmo lub przeglądać każdy użytkownik.

Jak zbudowane jest hasło słownika? Np. do słowa "samochód" przyporządkowane są synonimy - m.in. "auto" czy "wóz". Osobno wymienione są także różne rodzaje samochodów, np. "autobus", "taksówka", "kabriolet", (wobec nich "samochód" jest hiperonimem), a także pojęcia, w których mieści się pojęcie samochodu, takie jak "pojazd dwuśladowy", czy "środek lokomocji" (samochód jest ich hiponimem). Wśród słów, z którymi "samochód" jest związany, są też elementy samochodu: "podwozie", "bak" czy "poduszka powietrzna" (to klasa o relacji holonimicznej). Jak w rozmowie z PAP wyjaśnia dr Maciej Piasecki, w słowniku wyróżniono ponad 20 różnych rodzajów relacji między słowami.

Każda relacja jest opisana linkiem, dzięki czemu Słowosieć staje się interaktywnym słownikiem, w którym sprawnie poruszać mogą się nie tylko ludzie, ale i programy komputerowe.

Na razie słownik obejmuje 106 tys. haseł, które mają 160 tys. znaczeń. Między hasłami jest 440 tys. powiązań, a 50 tys. haseł tłumaczonych jest na język angielski.

Naukowiec wymienia, że takiego rodzaju słownik przydać może się głównie trzem grupom osób. Korzystać mogą z niego zwykli użytkownicy - np. uczący się języka polskiego czy angielskiego. Inną grupą są naukowcy, którym Słowosieć pomoże np. w badaniach nad językiem. Ostatnią, ale bardzo ważną grupą, która może skorzystać ze Słowosieci, są twórcy oprogramowania. Słowosieć wykorzystywać mogą np. do automatycznych tłumaczeń, analizy tekstów czy mowy. Programistom słownik mógłby pomóc w tworzeniu skuteczniejszych i inteligentniejszych wyszukiwarek, czy w lepszym zarządzaniu informacjami w bazach dokumentów. Słownik pomóc ma też w rozwoju tzw. Internetu Semantycznego. "Może stosowany przez nas język opisu słów nie jest precyzyjny, ale wystarczy, by pomóc w analizie tekstów" - zaznacza ekspert z PWr.

Słownik Słowosieć wzorowany jest na amerykańskim słowniku Princeton Wordnet, który jest pierwszym i największym słownikiem tego typu (zawiera ok. 150 tys. haseł). Początkowo Wordnet, tworzony w latach 80. miał służyć tylko eksperymentom dotyczącym uczenia się przez dzieci znaczeń wyrazów. Z czasem okazało się, że zastosowań jest znacznie więcej. Jak zaznacza dr Piasecki, wiele państw tworząc własne sieci słów, decyduje się tylko na tłumaczenie amerykańskiego wordnetu. Polscy badacze postanowili jednak opracować słownik od nowa, dzięki czemu lepiej oddawać ma realia polskiego języka. Słowosieć powstaje w sposób półautomatyczny - opracowane na PWr programy uczą się znaczeń słów na podstawie ogromnej bazy tekstów i proponują opisy znaczeń do zatwierdzenia lingwistom.

"Nasz tezaurus wydaje się być lepiej niż Princeton Wordnet przemyślany pod względem konstrukcji. W angielskim słowniku dużo zależy od skojarzeń ludzi, którzy go tworzą. Tymczasem Słowosieć budowana jest na postawie analizy ogromnej bazy tekstów, która liczy w sumie prawie 2 mld słów. Są to różnorodne teksty, które dają dobry obraz języka. Tworzenie haseł w naszym słowniku to praca z rzeczywistym tekstem, a znaczenia, o których piszemy, wynikają z tego, jak słowa są rzeczywiście używane. Dzięki temu znaczenie może być bardziej aktualne niż w innych słownikach. Nasz słownik jako jedyny wśród słowników typu wordnet oparty jest o zasady lingwistyczne" - przyznaje dr Piasecki.

Na razie strona do przeglądania Słowosieci miała już setki tysięcy odwiedzin, a Słowosieć pobrało ok. 300 użytkowników, w tym kilkadziesiąt firm. Jak przyznaje naukowiec, z rozwiązania nie korzystają jeszcze żadne duże międzynarodowe firmy. "Tam często opracowywane są rozwiązania działające dla wielu języków, bo jest to najtańsze. Jednak takie rozwiązania niekoniecznie są optymalne dla języka polskiego" - zaznacza badacz.

"Mam nadzieję, że w ciągu 3 lat osiągniemy 200 tys. haseł. Tyle zawierał największy w historii słownik języka polskiego, stąd nasz cel. Ale chcemy poszukiwać naturalnych granic języka" - kończy dr Piasecki.

Nad słownikiem pracuje interdyscyplinarny zespół, w którego skład wchodzą zarówno informatycy, lingwiści informatyczni, jak i lingwiści. Działania finansowane są w ramach kilku projektów, m.in. NEKST czy SYNAT. Aby otrzymać pliki źródłowe Słowosieci, wystarczy bezpłatne zarejestrowanie się poprzez formularz.

PAP - Nauka w Polsce, Ludwika Tomala

lt/ mrt/

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Copyright © Fundacja PAP 2024