Winter 2025/2026

Introduction to Natural Language Processing [NLP]

Wprowadzenie do przetwarzania języka naturalnego

Harmonogram

do 30.10.25 - ustalenie tematu projektu
do 14.11.25 - dokumentacja wstępna
do 4.12.25 do 11.12.25 - dokumentacja wstępna rozszerzona o wstępne wyniki
do 13.01.26 - oddanie projektu

Informacje organizacyjne

Zespoły 2-3 osobowe
Konsultacje - środa, 17-18, 306 (wymagany wcześniejszy kontakt)

Termin elastyczny, jeśli zdalnie.

Pytania (element obowiązkowy każdego projektu) - Teams/mail/konsultacje

Propozycje projektów

Własne propozycje tematów mile widziane

Tłumczenie kontekstowe - problemy
- Ewaluacja tłumaczenia kontekstowego (dokumenty zamiast zdań)
- Zadanie eksploracyjne - szukanie ograniczeń obecnych modeli i metryk
Model merging
- Wytrenowanie kilku modeli (np. MiniBERT) do wybranych zadań NLP
- Porównanie kilku metod "model merging" (przykładowa lista i implementacja)
Porównanie metod Parameter-Efficient Fine-tuning (PEFT) na wybranych zadaniach NLP
- Wybór różnych zadań NLP (w różnym typie, np. klasyfikacja i seq2seq)
- Porównanie kilku metod PEFT w tych zadaniach (np. korzystając z bilioteki peft lub adapters)
Adaptacja domeny poprzez "pre-training"
- Przeprowadzenie (na mała skalę) eksperymentu zbliżonego do Gururangan et al., ACL 2020
- Wybór jednego z zadań NLP + kilku zbiorów podobnych na których będzie wykonywany tylko wstępny trening
- Porównanie wyników zadania z i bez zastosowania tej metody
Shared Task w ramach jednej z konferencji, np. FEVER
TBA

Application Programming [PAP]

Programowanie aplikacyjne

Informacje organizacyjne

Konsultacje - środa, 17-18, 306 (wymagany wcześniejszy kontakt)

Termin elastyczny, jeśli zdalnie.

Pytania (element obowiązkowy każdego projektu) - Teams/mail/konsultacje

Zasady (in-progress)

Uzgodnienie tematu musi nastąpić przed końcem etapu nr 1 (należy uwzględnić, że temat może okazać się zbyt prosty)
Każdy etap wymaga stworzenia w repozytorium pliku PAP2025Zxx_etap_N.pdf z treścią wymaganą przed konkretny etap (max. 2 strony, np. PAP2025Z03_etap_1.pdf)
Po wykonaniu każdego etapu (zgodnie z harmonogramem przedmiotu) należy wysłać maila (jeden na zespół) z krótkim opisem rozwiązania (co zmieniło się względem poprzedniego etapu) + link do projektu na gitlabie

Wymagania (in-progress)

Technologie: Java (lub inne języki JVM) + Swing/JavaFX (lub rozwiązanie webowe do interfejsu użytkownika)
Uruchomienie: prosta instrukcja w README.md w repozytorium (preferowany docker, musi być środowisko Linux)
Baza danych: SQL/NoSQL, nie może to być baza w postaci plików
Testy: jednostkowe to minimum, zależnie od projektu także integracyjne

Summer 2025

Introduction to Natural Language Processing

Wprowadzenie do przetwarzania języka naturalnego

Harmonogram

do 26.03 - ustalenie tematu projektu
do 23.04 - dokumentacja wstępna (element obowiązkowy dokumentacji to wstępne wyniki)
do 28.05 - oddanie projektu

Informacje organizacyjne

Zespoły 2-3 osobowe
Konsultacje - środa, 18-19, 306 (prośba o wcześniejszy kontakt)

Termin elastyczny, jeśli zdalnie.

Pytania (element obowiązkowy każdego projektu) - Teams/mail/konsultacje

Propozycje projektów

Własne propozycje tematów mile widziane

Realizacja zadania (lub jego części) z SemEval 2025.
Idiomy w tłumaczeniu maszynowym
- Punkt wyjściowy to publikacja Baziotis et al., 2023
- Projekt może skupić się na wątku ewaluacji (np. LLMów) i tworzenia danych lub metodach trenowania (małych modeli - tutorial w zakładce blog)
Tłumczenie kontekstowe - problemy
- Ewaluacja tłumaczenia kontekstowego (dokumenty zamiast zdań)
- Zadanie eksploracyjne - szukanie ograniczeń obecnych modeli i metryk
Porównanie metod Parameter-Efficient Fine-tuning (PEFT) na wybranych zadaniach NLP
- Wybór różnych zadań NLP (w różnym typie, np. klasyfikacja i seq2seq)
- Porównanie kilku metod PEFT w tych zadaniach (np. korzystając z bilioteki peft lub adapters)
Model merging
- Wytrenowanie kilku modeli (np. MiniBERT) do wybranych zadań
- Porównanie kilku metod "model merging" (przykładowa lista i implementacja)

Summer 2023

Introduction to Natural Language Processing

Wprowadzenie do przetwarzania języka naturalnego

Harmonogram

do 29.03 - ustalenie tematu projektu
do 19.04 - dokumentacja wstępna (element obowiązkowy dokumentacji to wstępne wyniki)
do 31.05 - oddanie projektu

Informacje organizacyjne

Zespoły 2 osobowe (w szczególnych przypadkach 1/3 dopuszczalne)
Konsultacje - środa, 18-19, 302 (prośba o wcześniejszy kontakt)

Termin elastyczny, jeśli zdalnie.

Pytania (element obowiązkowy każdego projektu) - Teams/mail/konsultacje

Propozycje projektów

Własne propozycje tematów mile widziane. Do projektów związanych z tłumaczeniem maszynowym, dostępny jest tutorial w zakładce blog (byłbym wdzięczny za feedback i zgłaszanie błędów każdego typu, literówek też).

Idiomy w tłumaczeniu maszynowym
- Punkt wyjściowy to publikacja Baziotis et al., 2022
- Tłumaczenie angielski-polski/polski-angielski
- Projekt może się skupić na wątku ewaluacji i danych lub metodach trenowania
Wpływ metod przetwarzania wstępnego na adaptację domeny w tłumaczeniu maszynowym
- Wykorzystanie gotowego modelu tłumaczenia maszynowego
- Wybór 1-2 metod adaptacji domeny (np. "fine-tuning" lub adaptery)
- Analiza wpływu różnych metod przetwarzania danych (np. filtrowanie w oparciu o stosunek pomiędzy długościami zdań, wykrycie języka, różnice miar/interpunkcji)
Dekodowanie MBR a Beam search w tłumaczeniu maszynowym
- Analiza porównawcza dwóch typów dekodowania
- Wykorzystanie dostępnych publicznie modeli i bibliotek
- Można skupić się na lingwistycznych różnicach (lub technicznych jak Müller & Sennrich, ACL 2021)
TBA

Winter 2022/2023

Introduction to Natural Language Processing

Wprowadzenie do przetwarzania języka naturalnego

Harmonogram (wstępny)

do 16.11 - ustalenie tematu projektu
do 14.12 - dokumentacja wstępna (+ wstępne wyniki!)
do 18.01 - termin oddania projektu

Informacje organizacyjne

Zespoły 2 osobowe (w szczególnych przypadkach 1/3 dopuszczalne)
Konsultacje - wtorek, 18-19 (prośba o wcześniejszy kontakt)

Termin elastyczny, jeśli zdalnie.

Pytania - mail/Teams

Propozycje projektów

Własne propozycje tematów mile widziane

Adaptacja domeny poprzez "pre-training" - temat zajęty
- Przeprowadzenie (na mała skalę) eksperymentu zbliżonego do Gururangan et al., ACL 2020
- Wybór jednego z zadań NLP, np. analiza sentymentu + kilku zbiorów podobnych na których będzie wykonywany tylko "pre-training"
- Porównanie wyników zadania z i bez zastosowania tej metody
Dekodowanie MBR a Beam search w tłumaczeniu maszynowym
- Analiza porównawcza dwóch typów dekodowania
- Wykorzystanie dostępnych publicznie modeli i bibliotek
- Można skupić się na lingwistycznych różnicach (lub technicznych jak Müller & Sennrich, ACL 2021)
Udział w jednym z zadań w ramach konkursu SemEval-2023
- Częściowy udział (np. tylko jeden język w zadaniach wielojęzycznych) jest ok
- Zespoły 3-osobowe są dopuszczalne bez argumentacji ;)
Back-translation w tłumaczeniu maszynowym - temat zajęty
- Przeprowadzenie (na mała skalę) eksperymentu zbliżonego do Edunov et al., EMNLP 2018
- Back-translation: 2-3 metody, jedna para języków, zbiór testowy w konkretnej domenie
- Analiza wyników
Wpływ metod przetwarzania wstępnego na adaptację domeny w tłumaczeniu maszynowym
- Wykorzystanie gotowego modelu tłumaczenia maszynowego
- Wybór 1-2 metod adaptacji domeny (np. "fine-tuning" lub adaptery)
- Analiza wpływu różnych metod przetwarzania danych (np. filtrowanie w oparciu o stosunek pomiędzy długościami zdań, wykrycie języka, różnice numeryczne) na wyniki
TBA

Summer 2022

Introduction to Natural Language Processing

Wprowadzenie do przetwarzania języka naturalnego

Harmonogram (wstępny)

do 23.03 - ustalenie tematu projektu
do 13.04 - dokumentacja wstępna
do 1.06 - termin wysłania projektu (prezentacja do końca semestru, edit: jeśli potrzeba oceny do zwolnienia z kolokwium - to najpóźniej dzień przed kolokwium)

Informacje organizacyjne

Zespoły 2 osobowe (w szczególnych przypadkach 1/3 dopuszczalne)
Konsultacje - środa, 18-19 (prośba o wcześniejszy kontakt)

Obecnie zdalnie, więc termin elastyczny

Pytania - mail/Teams

Propozycje projektów

Własne propozycje tematów mile widziane

Transliteracja w tłumaczeniu maszynowym - temat zajęty
- Wybór pary języków z różnym alfabetem (np. łaciński - cyrlica)
- Wytrenowanie modeli tłumaczenia (bazowgo i poddanego transliteracji)
- Analiza wyników
Zadanie rozpoznawania koreferencji - temat zajęty
- Problem wielojęzyczny - można ograniczyć się do podzbioru
- Może być większy zespół pod warunkiem pełnego udziału
- Szczegóły: CRAC'22 Shared Task
Porównanie modeli sekwencyjnych do zadania tokenizacji i segmentacji - temat zajęty
- Wybór zestawu rozwiązań i zbiórów danych w oparciu o literaturę
- Test dla min. 2 różnych języków
- Analiza wyników
Adaptery w NLP - temat zajęty
- Wybór zadania/zadań NLP z odpowiednimi schematami (np. problem wielojęzyczny, adaptacja domeny)
- Porównanie, analiza dotrenowania modelu językowego (np. mBERT) do konkretnego zadania z Adapterami i bez
Porównanie różnych typów tagowania w zadaniu rozpoznawania jednostek nazewniczych - temat zajęty
- Wybór zbiorów zadań (2 różne języki)
- Wybór kilku sposobów adnotacji (IO/BIO/...) oraz architektury
- Porównianie rozwiązań
Back-translation w tłumaczeniu maszynowym - temat zajęty
- Przeprowadzenie (na mała skalę) eksperymentu zbliżonego do Edunov et al., EMNLP 2018
- Back-translation: 2-3 metody, jedna para języków, zbiór testowy w konkretnej domenie
- Analiza wyników
Shared Task w ramach jednej z konferencji *ACL'22
TBA