Stworzono polski słownik dla badaczy języka i naukowców pracujących nad sztuczną inteligencją

Słownik języka polskiego, który pomoże komputerom rozeznać się w znaczeniach słów, przygotowali badacze z Łodzi. Dokument wyznacza odległości między słowami, a przez to – określa relacje między nimi. Dzięki temu programy będą np. sprawniej sugerować poprawki w tekstach.

Na Politechnice Łódzkiej powstał nowy rodzaj słownika, przeznaczony dla badaczy języka oraz naukowców pracujących nad sztuczną inteligencją. Słownik ma szansę wznieść na wyższy poziom możliwość edycji testów – być może dzięki niemu łatwiej będzie pisać teksty na smartfonach, a w edytorach tekstowych wykrywane będą pomyłki, których dotąd programy te nie pokazywały. Słownik jest już udostępniony za darmo.

Inteligentny słownik języka polskiego oparty o wektorowe reprezentacje słów opracowali doktorant Marek Rogalski oraz prof. Piotr Szczepanek z Instytutu Informatyki Politechniki Łódzkiej. Ich rozwiązanie zostało docenione na wystawie wynalazków Geneva Innovations – otrzymało złoty medal z wyróżnieniem.

„Dla komputera każde słowo to tylko losowy zbiór liter, który nic nie znaczy” – zwraca uwagę w rozmowie z PAP Marek Rogalski. Dlatego naukowcy zastanawiali się, jak sprawić, żeby komputerom lepiej się pracowało na tekstach tworzonych w języku naturalnym.

Wcześniej powstawały już słowniki z założenia przyjazne maszynom, w których np. poszczególne hasła były połączone hiperlinkami z synonimami (np.: helikopter – śmigłowiec), antonimami (np.: młody – stary) czy hiponimami (jamnik jest hiponimem słowa pies). Były to jednak ciągle dokumenty przypominające budową słowniki tradycyjne.

Natomiast słownik z Politechniki Łódzkiej skonstruowany jest w zupełnie inny sposób – tam związki między słowami wyznaczać można matematycznie. A przecież operacje na liczbach to coś, w czym komputery czują się jak ryba w wodzie.

Sto wymiarów każdego słowa. „Zbudowaliśmy sieć neuronową, która czytała polską Wikipedię. Sieć patrzyła na słowa – które dla niej nic nie znaczą – i w poszczególnych zdaniach próbowała odgadnąć kolejne wyrazy. Dzięki temu system sam uczył się, jak poprzednie słowa wpływają na kolejne, rozpoznawał, które się ze sobą łączą i które wyrazy są ze sobą powiązane tematycznie i znaczeniowo” – mówi Marek Rogalski.

Efektem pracy tej sieci jest słownik, w którym każde słowo reprezentowane jest punktem opisanym setką liczb. Każde słowo w języku staje się więc dla komputera punktem w stuwymiarowej przestrzeni. W ten sposób między różnymi punktami – czyli słowami – można wyliczać odległości. „Cechą słownika jest to, że słowa, która znajdują się bliskosiebie, znaczą coś podobnego, np. są synonimami” – opowiada Rogalski.

Jak opowiada naukowiec, różne obszary tej przestrzeni odpowiadają różnym klasom słów. Jest więc przestrzeń związana z rzeczownikami, nazwami własnymi, czy czasownikami. Poza tym różne podobszary tych przestrzeni zawierają coraz węższe kategorie słów – na przykład w okolicy słowa herbata, możemy znaleźć słowa takie jak kawa, cytryna czy mleko.

Doktorant zdradza jeszcze inną ciekawą właściwość słownika. „Jeśli np. wyprowadzimy ze słowa: Polska odcinek do słowa: Warszawa, a następnie przeniesiemy ten odcinek i wyprowadzimy go ze słowa: Francja, to koniec tego odcinka wypadnie gdzieś niedaleko punktu, w którym leży słowo: Paryż – podaje przykład badacz. Dzięki temu można wyznaczać zależności między słowami, rozpoznawać między nimi analogie i przenosić te analogie na inne słowa.

Pomysł na słownik opracowali kilka lat temu naukowcy zagraniczni. Problemem było jednak dostosowanie algorytmów do języka polskiego. „Było to dość kłopotliwe – wymagało rozwiązania problemów technicznych i zabrało sporo czasu” – zaznacza Rogalski. Przyznaje, że takie słowniki powstają już dla różnych języków, ale specjaliści niechętnie się nimi dzielą. Tymczasem rozwiązanie z Politechniki Łódzkiej – jak deklaruje badacz z tej uczelni – w ciągu kilku miesięcy zostanie udostępnione za darmo. Będą z niego mogli korzystać wszyscy zainteresowani.

Aplikacja w aplikacjach. Jak wyjaśnia naukowiec z Politechniki Łódzkiej, słownik ma postać ważącego ok. 1 GB pliku tekstowego. Można go wykorzystać np. w przygotowaniu aplikacji mobilnych lub edytorów tekstów. Słownik mógłby sprytnie podpowiadać użytkownikowi smartfona następne słowa wpisywanego tekstu. Poza tym, jak dodaje Rogalski – słownik usprawniłby pracę programów do edycji tekstów. Możliwości wykrywania błędów językowych przez te aplikacje są dziś ograniczone. Wprawdzie w tekstach zaznaczane są literówki, ale jeśli przez pomyłkę napiszemy słowo, które już istnieje – program tego nie wychwyci. Jeśli np. chcemy zwrócić uwagę „na różnice między pokoleniami”, a omsknie nam się palec na klawiaturze, i wpiszą się „narożnice miedzy pokoleniami”, tradycyjny edytor tekstowy nie zauważy pomyłek. Tymczasem komputerowy słownik z Politechniki Łódzkiej mógłby powiadomić użytkownika, że w tekście coś się nie klei.

Rogalski przyznaje, że Wikipedia (z której na razie korzystano przy konstruowaniu słownika) to dość specyficzny zbiór tekstów. Język Wikipedii nie jest przecież językiem, jakim posługujemy się na co dzień w rozmowach. Stąd też na razie w słowniku są pewne braki. „Określeń potocznych się tu raczej nie znajdzie. Ale za to nasz słownik świetnie nadaje się do rozpoznawania nazwisk, krajów, miast, gatunków roślin” – wymienia badacz.

Jego zdaniem, z nowego rozwiązania mogliby korzystać wielbiciele krzyżówek. „Możemy podać kilka słów, w okolicy których szukamy odpowiedzi, i nasz słownik podałby jakieś możliwe hasła” – tłumaczy.

Twórcy słownika zastanawiają się jednak nad jego udoskonaleniem dzięki pracy na bazie Narodowego Korpusu Języka Polskiego, który zawiera teksty bardziej różnorodne i reprezentatywne dla języka polskiego. To sprawiłoby, że słownik lepiej spisywałby się w codziennych sytuacjach.

PAP – Nauka w Polsce, Ludwika Tomala

Źródło: Serwis Nauka w Polsce – www.naukawpolsce.pap.pl

Ilustracja własna redakcji IMPRESJee.pl:

Grafileksonia V, Stefania Pruszyńska

Tags: *Autorka obrazów * grafik * * fotografii reportaż., artystycznych: Stefania Pruszyńska *Eseje * Utwory * Artykuły* **Rozmowy – wywiady – sondaże* *Reportaże* *Recenzje* *Felietony* *Polemiki* *Informacje*Autorka tekstu: Ludwika Tomala Marek Rogalski NAUKA * Badacze * Odkrywcy * Wydarzenia * Uczelnie Obrazy * Grafiki * Rysunki * Fotografie * Filmy * Plakaty * Nagrania Piotr Szczepanek

— Stefania Pruszyńska

(Stefania Pruszyńska oficjalnie: Stefania Golenia) – eseistka, poetka, redaktor-dziennikarka. Redaktor naczelna, wydawca, autorka i wszechstronna realizatorka Gazety Autorskiej IMPRESJee.pl (od 2006 r.) Autorka publikacji różnych gatunków (eseje, recenzje, felietony, reportaże, wywiady, fotoreportaże), utworów literackich (poetyckich i prozy poetyckiej, opowiadań, utworów satyrycznych, grotesek, aforyzmów) oraz artystycznych sztuki plastycznej. Zazwyczaj wykracza poza gatunkowe schematy. Krytycznoliterackie żywioły z upodobaniem uprawia w eseistycznej narracji. Wypowiada się hojnie w swojej twórczości artystycznej literackiej, a w plastycznej mowę swojej wyobraźni, intuicji, myśli i emocji uwalnia w obrazach o indywidualnym, rozpoznawalnym stylu, z autonomiczną, lecz zarazem wieloznaczną symboliką i metaforą. ⇒⇒⇒⇒⇒⇒⇒⇒⇒⇒PUBLIKACJE RÓŻNOGATUNKOWE (co najmniej 2 tys.): publicystyka, eseje, felietony, wywiady, recenzje, reportaże, fotoreportaże, utwory artystyczne: literackie i sztuki plastycznej – zarówno w Gazecie IMPRESJee.pl (od 2006 r.), własnych autorskich witrynach artystycznych (Poezja, Stefania Pruszyńska, ArtGrafPoeFoto, Stefania Pruszyńska w latach: 2007-2019), własnym zbiorze poezji „Szepty dalekobieżne” (San Francisco ), jak i w wielu czasopismach ogólnopolskich i regionalnych (również w cyklicznych wydawnictwach: rocznikach) – kulturalnych, literackich, muzycznych, książkach innych autorów, antologiach poetyckich (np. Lednickiej Wiosny Poetyckiej), antologiach poezji współczesnej i antologiach poetyckich dwujęzycznych (np. w latach 2017-2023: Międzynarodowej Konferencji Poetyckiej, wyd. WO ZLP i Fundacja Literacka „Jak podanie ręki”), charytatywnych i tematycznych. NAJNOWSZE PUBLIKACJE (oprócz zamieszczanych na bieżąco w Gazecie Autorskiej IMPRESJee.pl) w: kwartalniku literackim „Protokół Kulturalny” (nr 84/2023), antologii poświęconej pamięci Poznańskiego Czerwca 1956 (wyd. Posnania, Poznań, czerwiec 2023) oraz antologii VII Międzynarodowej Konferencji Poetyckiej „Jesienny dotyk poezji” (wyd. WO ZLP i Fundacja Literacka „Jak podanie ręki”, Poznań, październik 2023). Także publikowała i publikuje w witrynach macierzystych środowisk dziennikarskich i literackich. ⇒⇒⇒⇒⇒⇒⇒⇒⇒⇒PREZENTACJE UTWORÓW ARTYSTYCZNYCH. ⇒⇒⇒⇒Poetyckie na: spotkaniach autorskich, festiwalach kulturalnych, jako gość poetycki koncertów, specjalnych spotkań okolicznościowych i różnych społeczności, zaprzyjaźnionych twórców, wieczorach Klubu Literackiego, w kolejnych edycjach Międzynarodowej Konferencji Poetyckiej WO ZLP oraz kaliskich „Aforystykonów” WO ZLP (w Poznaniu m.in.: w klubie ZAK, PoemaCafe, Pałacu Działyńskich, Domu Romskim, Domu Bretanii, siedzibie PO ZLP na os. Powstańców Warszawy w 2015 r., na Wydziale Dziennikarstwa UAM w kampusie na Morasku, Auli UAM w 2017 r., Collegium Minus UAM, siedzibie KL „Dabrówka” na Piątkowie, w Dwujęzycznym Liceum im. Jana Nowaka-Jeziorańskiego; poza Poznaniem – w: Kaliszu, Nieszawie, Ludwikowie, Międzyzdrojach, a poza Polską – na greckiej Krecie w Rethymno i Adelianos Kampos w 2010 r). ⇒⇒⇒⇒⇒⇒⇒⇒⇒⇒ Z 35-letnim doświadczeniem zawodowym z pracy dziennikarskiej i redaktorskiej, a także artystycznej w redakcjach i wydawnictwach (od 1989). Etatowo: w niezależnym Dzienniku Wielkopolan „Dzisiaj” (1989 – 1991), własnej Agencji „Promotion” (1993), amerykańsko-polskim wydawnictwie US West Polska (1993 – 1996), „Gazecie Targowej”, tygodniku „Wprost” (1996 – 2000). ⇒⇒⇒⇒⇒ Od 2006 r. redaktor naczelna, niezależna wydawczyni, redaktor-autorka i wszechstronna realizatorka Gazety Autorskiej IMPRESJee, obecnie pod nazwą IMPRESJee.pl, o profilu kulturalnym. ⇒⇒⇒⇒⇒⇒⇒⇒⇒⇒ Z DOŚWIADCZENIEM WIELOASPEKTOWEJ WSPÓŁPRACY (dziennikarskiej, autorskiej artystycznej, redaktorskiej) z wieloma czasopismami, w tym polonijnymi (w latach 1992-2010: dwutygodnik – „Kurier” Hamburg, „Dziennik Polski”, „Tydzień Polski” – Londyn) oraz licznymi ogólnopolskimi i regionalnymi czasopismami kulturalnymi, literackimi (od wielu lat z „Protokołem Kulturalnym”) oraz wydawnictwami-wydawcami książek literackich i antologii poezji. ⇒⇒⇒⇒⇒⇒⇒⇒⇒⇒ TAKŻE REDAKTOR PROWADZĄCA I REDAKTOR-KOREKTOR (z wieloletnim doświadczeniem): czasopism (miesięczników i tygodników), monografii, albumów artystycznych i historycznych, książek poetyckich i prozy, biograficznych, antologii poetyckich, wademeków w kilku językach europejskich, biuletynów i prac naukowych i in. ⇒⇒⇒⇒⇒⇒⇒⇒⇒⇒ NAGRODY: w ogólnopolskim konkursie Miesięcznika Kulturalnego „Arkusz” Poznań-Warszawa-Kraków-Wrocław, wydawanego przez Oficynę Wydawniczą „Głos Wielkopolski” (1996), oraz laur „Dziennikarskie Koziołki 2017” w Ogólnopolskim Konkursie Stowarzyszenia Dziennikarzy RP – dla swojej redakcji IMPRESJee.pl za wieloaspektowe realizacje. ⇒⇒⇒⇒⇒⇒⇒⇒⇒⇒ NAUKA: Wiedzę akademicką zdobywała w Uniwersytecie im. A. Mickiewicza (UAM) oraz Akademii Ekonomicznej w Poznaniu (AE). ⇒⇒⇒⇒⇒⇒⇒⇒⇒⇒ UPODOBANIA, POGLĄDY: Ideowiec - miłośniczka natury, harmonii, sztuk wszelakich, od wczesnej młodości zwolenniczka idei dialogu kultur i jej rozwoju.