Greg Krynicki's PhD


Abstract

W pracy przedstawiono metody zbierania, wstępnego przetwarzania, analizy morfologicznej oraz dopasowywania korpusów równoległych na poziomie wyrazu i zdania. Przedstawiono również wykorzystanie niektórych z tych metod w opracowywaniu największego zgromadzonego dotychczas, ponad 52-milionowego korpusu równoległego obejmującego język polski - EPPC (English-Polish Parallel Corpus).

Na korpus EPPC składają się w podobnych proporcjach dwa główne źródła: dzieła literatury polskiej i światowej oraz ustawodawstwo Unii Europejskiej. Zostały one półautomatycznie zgromadzone z zasobów sieci Internet. Materiały wstępnie oczyszczono i ujednolicono. Poddano je następnie hasłowaniu oraz lematyzacji (dla polskiej części EPPC) lub stemowaniu (dla części angielskiej). Ohasłowany i zanalizowany morfologicznie korpus poddano dopasowywaniu na poziomie wyrazu i zdania.

Przy dopasowywaniu wyrazowym wykorzystano algorytm IBM Model 1 zaprezentowany w pracy Browna i in. (1993). Przeanalizowano 1000 par odpowiedników zwróconych przez algorytm jako najbardziej prawdopodobne wzajemne odpowiedniki. Stwierdzono, iż 89.9% z tych par odpowiedników jest w pełni poprawna. Przeanalizowano następnie 1250 par odpowiedników wybranych losowo z 5000 par odpowiedników zwróconych przez algorytm jako najbardziej prawdopodobne wzajemne odpowiedniki. Stwierdzono, iż w pełni poprawne jest 44.8% par odpowiedników.

Do dopasowywania zdaniowego użyto czterech algorytmów: Churcha i Gale’a (1991b), Melameda (1997), Moore’a (2002) oraz Halácsy’ego i in. (2005). Po wykazaniu istotnie gorszej skuteczności pierwszego z wymienionych algorytmów w stosunku do wyników pozostałych, w dalszych testach nie brano pod uwagę wyników jego dopasowywania. Z pozostałych trzech algorytmów najskuteczniejszy względem ogólnej miary F okazał się algorytm Halácsy’ego i in. (2005, F = 0,8750). Drugim co do skuteczności względem wartości F był algorytm Melameda (1997, F = 0,7821). Najmniej skuteczny w ocenie ogólnej okazał sie mechanizm Moore’a (F = 0,7647). Z drugiej jednak strony, ten właśnie algorytm osiągnął najwyższą skuteczność dopasowywania względem miary precyzji (97.47% poprawnych dopasowań dla poddanych analizie morfologicznej sekcji EPPC zawierajacych ustawodawstwo UE).

11 Oct 2006