Summer 2025
Introduction to Natural Language Processing
Wprowadzenie do przetwarzania j臋zyka naturalnego
Harmonogram
- do 26.03 - ustalenie tematu projektu
- do 23.04 - dokumentacja wst臋pna (element obowi膮zkowy dokumentacji to wst臋pne wyniki)
- do 28.05 - oddanie projektu
Informacje organizacyjne
- Zespo艂y 2-3 osobowe
- Konsultacje - 艣roda, 18-19, 302 (pro艣ba o wcze艣niejszy kontakt)
- Termin elastyczny, je艣li zdalnie.
- Pytania (element obwi膮zkowy ka偶dego projektu) - Teams/mail/konsultacje
Propozycje projekt贸w
W艂asne propozycje temat贸w mile widziane
- Realizacja zadania (lub jego cz臋艣ci) z SemEval 2025.
- Idiomy w t艂umaczeniu maszynowym
- Punkt wyj艣ciowy to publikacja Baziotis et al., 2023
- Projekt mo偶e skupi膰 si臋 na w膮tku ewaluacji (np. LLM贸w) i tworzenia danych lub metodach trenowania (ma艂ych modeli - tutorial w zak艂adce blog)
- T艂umczenie kontekstowe - problemy
- Ewaluacja t艂umaczenia kontekstowego (dokumenty zamiast zda艅)
- Zadanie eksploracyjne - szukanie ogranicze艅 obecnych modeli i metryk
- Por贸wnanie metod Parameter-Efficient Fine-tuning (PEFT) na wybranych zadaniach NLP
- Wyb贸r r贸偶nych zada艅 NLP (w r贸偶nym typie, np. klasyfikacja i seq2seq)
- Por贸wnanie kilku metod PEFT w tych zadaniach (np. korzystaj膮c z bilioteki peft lub adapters)
-
Model merging
Summer 2023
Introduction to Natural Language Processing
Wprowadzenie do przetwarzania j臋zyka naturalnego
Harmonogram
- do 29.03 - ustalenie tematu projektu
- do 19.04 - dokumentacja wst臋pna (element obowi膮zkowy dokumentacji to wst臋pne wyniki)
- do 31.05 - oddanie projektu
Informacje organizacyjne
- Zespo艂y 2 osobowe (w szczeg贸lnych przypadkach 1/3 dopuszczalne)
- Konsultacje - 艣roda, 18-19, 302 (pro艣ba o wcze艣niejszy kontakt)
- Termin elastyczny, je艣li zdalnie.
- Pytania (element obwi膮zkowy ka偶dego projektu) - Teams/mail/konsultacje
Propozycje projekt贸w
W艂asne propozycje temat贸w mile widziane. Do projekt贸w zwi膮zanych z t艂umaczeniem maszynowym, dost臋pny jest tutorial w zak艂adce
blog
(by艂bym wdzi臋czny za feedback i zg艂aszanie b艂臋d贸w ka偶dego typu, liter贸wek te偶).
- Idiomy w t艂umaczeniu maszynowym
- Punkt wyj艣ciowy to publikacja Baziotis et al., 2022
- T艂umaczenie angielski-polski/polski-angielski
- Projekt mo偶e si臋 skupi膰 na w膮tku ewaluacji i danych lub metodach trenowania
- Wp艂yw metod przetwarzania wst臋pnego na adaptacj臋 domeny w t艂umaczeniu maszynowym
- Wykorzystanie gotowego modelu t艂umaczenia maszynowego
- Wyb贸r 1-2 metod adaptacji domeny (np. "fine-tuning" lub adaptery)
- Analiza wp艂ywu r贸偶nych metod przetwarzania danych (np. filtrowanie w oparciu o stosunek pomi臋dzy d艂ugo艣ciami zda艅, wykrycie j臋zyka, r贸偶nice miar/interpunkcji)
-
Dekodowanie MBR a Beam search w t艂umaczeniu maszynowym
- Analiza por贸wnawcza dw贸ch typ贸w dekodowania
- Wykorzystanie dost臋pnych publicznie modeli i bibliotek
- Mo偶na skupi膰 si臋 na lingwistycznych r贸偶nicach (lub technicznych jak M眉ller & Sennrich, ACL 2021)
- TBA
Winter 2022/2023
Introduction to Natural Language Processing
Wprowadzenie do przetwarzania j臋zyka naturalnego
Harmonogram (wst臋pny)
- do 16.11 - ustalenie tematu projektu
- do 14.12 - dokumentacja wst臋pna (+ wst臋pne wyniki!)
- do 18.01 - termin oddania projektu
Informacje organizacyjne
- Zespo艂y 2 osobowe (w szczeg贸lnych przypadkach 1/3 dopuszczalne)
- Konsultacje - wtorek, 18-19 (pro艣ba o wcze艣niejszy kontakt)
- Termin elastyczny, je艣li zdalnie.
- Pytania - mail/Teams
Propozycje projekt贸w
W艂asne propozycje temat贸w mile widziane
-
Adaptacja domeny poprzez "pre-training" - temat zaj臋ty
- Przeprowadzenie (na ma艂a skal臋) eksperymentu zbli偶onego do Gururangan et al., ACL 2020
- Wyb贸r jednego z zada艅 NLP, np. analiza sentymentu + kilku zbior贸w podobnych na kt贸rych b臋dzie wykonywany tylko "pre-training"
- Por贸wnanie wynik贸w zadania z i bez zastosowania tej metody
-
Dekodowanie MBR a Beam search w t艂umaczeniu maszynowym
- Analiza por贸wnawcza dw贸ch typ贸w dekodowania
- Wykorzystanie dost臋pnych publicznie modeli i bibliotek
- Mo偶na skupi膰 si臋 na lingwistycznych r贸偶nicach (lub technicznych jak M眉ller & Sennrich, ACL 2021)
- Udzia艂 w jednym z zada艅 w ramach konkursu SemEval-2023
- Cz臋艣ciowy udzia艂 (np. tylko jeden j臋zyk w zadaniach wieloj臋zycznych) jest ok
- Zespo艂y 3-osobowe s膮 dopuszczalne bez argumentacji ;)
-
Back-translation w t艂umaczeniu maszynowym - temat zaj臋ty
- Przeprowadzenie (na ma艂a skal臋) eksperymentu zbli偶onego do Edunov et al., EMNLP 2018
- Back-translation: 2-3 metody, jedna para j臋zyk贸w, zbi贸r testowy w konkretnej domenie
- Analiza wynik贸w
- Wp艂yw metod przetwarzania wst臋pnego na adaptacj臋 domeny w t艂umaczeniu maszynowym
- Wykorzystanie gotowego modelu t艂umaczenia maszynowego
- Wyb贸r 1-2 metod adaptacji domeny (np. "fine-tuning" lub adaptery)
- Analiza wp艂ywu r贸偶nych metod przetwarzania danych (np. filtrowanie w oparciu o stosunek pomi臋dzy d艂ugo艣ciami zda艅, wykrycie j臋zyka, r贸偶nice numeryczne) na wyniki
- TBA
Summer 2022
Introduction to Natural Language Processing
Wprowadzenie do przetwarzania j臋zyka naturalnego
Harmonogram (wst臋pny)
- do 23.03 - ustalenie tematu projektu
- do 13.04 - dokumentacja wst臋pna
- do 1.06 - termin wys艂ania projektu (prezentacja do ko艅ca semestru, edit: je艣li potrzeba oceny do zwolnienia z kolokwium - to najp贸藕niej dzie艅 przed kolokwium)
Informacje organizacyjne
- Zespo艂y 2 osobowe (w szczeg贸lnych przypadkach 1/3 dopuszczalne)
- Konsultacje - 艣roda, 18-19 (pro艣ba o wcze艣niejszy kontakt)
- Obecnie zdalnie, wi臋c termin elastyczny
- Pytania - mail/Teams
Propozycje projekt贸w
W艂asne propozycje temat贸w mile widziane
-
Transliteracja w t艂umaczeniu maszynowym - temat zaj臋ty
- Wyb贸r pary j臋zyk贸w z r贸偶nym alfabetem (np. 艂aci艅ski - cyrlica)
- Wytrenowanie modeli t艂umaczenia (bazowgo i poddanego transliteracji)
- Analiza wynik贸w
-
Zadanie rozpoznawania koreferencji - temat zaj臋ty
- Problem wieloj臋zyczny - mo偶na ograniczy膰 si臋 do podzbioru
- Mo偶e by膰 wi臋kszy zesp贸艂 pod warunkiem pe艂nego udzia艂u
- Szczeg贸艂y: CRAC'22 Shared Task
-
Por贸wnanie modeli sekwencyjnych do zadania tokenizacji i segmentacji - temat zaj臋ty
- Wyb贸r zestawu rozwi膮za艅 i zbi贸r贸w danych w oparciu o literatur臋
- Test dla min. 2 r贸偶nych j臋zyk贸w
- Analiza wynik贸w
-
Adaptery w NLP - temat zaj臋ty
- Wyb贸r zadania/zada艅 NLP z odpowiednimi schematami (np. problem wieloj臋zyczny, adaptacja domeny)
- Por贸wnanie, analiza dotrenowania modelu j臋zykowego (np. mBERT) do konkretnego zadania z Adapterami i bez
-
Por贸wnanie r贸偶nych typ贸w tagowania w zadaniu rozpoznawania jednostek nazewniczych - temat zaj臋ty
- Wyb贸r zbior贸w zada艅 (2 r贸偶ne j臋zyki)
- Wyb贸r kilku sposob贸w adnotacji (IO/BIO/...) oraz architektury
- Por贸wnianie rozwi膮za艅
-
Back-translation w t艂umaczeniu maszynowym - temat zaj臋ty
- Przeprowadzenie (na ma艂a skal臋) eksperymentu zbli偶onego do Edunov et al., EMNLP 2018
- Back-translation: 2-3 metody, jedna para j臋zyk贸w, zbi贸r testowy w konkretnej domenie
- Analiza wynik贸w
- Shared Task w ramach jednej z konferencji *ACL'22
- TBA