teaching

Winter 2025/2026

Introduction to Natural Language Processing [NLP]

Wprowadzenie do przetwarzania j臋zyka naturalnego

Harmonogram

  • do TBD - ustalenie tematu projektu
  • do TBD - dokumentacja wst臋pna (element obowi膮zkowy dokumentacji to wst臋pne wyniki)
  • do TBD - oddanie projektu

Informacje organizacyjne

  • Zespo艂y 2-3 osobowe
  • Konsultacje - 艣roda, 17-18, 306 (wymagany wcze艣niejszy kontakt)
    • Termin elastyczny, je艣li zdalnie.
  • Pytania (element obwi膮zkowy ka偶dego projektu) - Teams/mail/konsultacje

Propozycje projekt贸w

W艂asne propozycje temat贸w mile widziane

  • Ewaluacja t艂umaczenia kontekstowego (dokumenty zamiast zda艅)
  • Zadanie eksploracyjne - szukanie ogranicze艅 obecnych modeli i metryk
  • Model merging
  • Application Programming [PAP]

    Programowanie aplikacyjne

    Informacje organizacyjne

    • Konsultacje - 艣roda, 17-18, 306 (wymagany wcze艣niejszy kontakt)
      • Termin elastyczny, je艣li zdalnie.
    • Pytania (element obwi膮zkowy ka偶dego projektu) - Teams/mail/konsultacje

    Zasady (in-progress)

    • Uzgodnienie tematu musi nast膮pi膰 przed ko艅cem etapu nr 1 (nale偶y uwzgl臋dni膰, 偶e temat mo偶e okaza膰 si臋 zbyt prosty)
    • Ka偶dy etap wymaga stworzenia w repozytorium pliku PAP2025Zxx_etap_N.pdf z tre艣ci膮 wymagan膮 przed konkretny etap (max. 2 strony, np. PAP2025Z03_etap_1.pdf)
    • Po wykonaniu ka偶dego etapu (zgodnie z harmonogramem przedmiotu) nale偶y wys艂a膰 maila (jeden na zesp贸艂) z kr贸tkim opisem rozwi膮zania (co zmieni艂o si臋 wzgl臋dem poprzedniego etapu) + link do projektu na gitlabie

    Wymagania (in-progress)

    • Technologie: Java (lub inne j臋zyki JVM) + Swing/JavaFX (lub rozwi膮zanie webowe do interfejsu u偶ytkownika)
    • Uruchomienie: prosta instrukcja w README.md w repozytorium (preferowany docker, musi by膰 艣rodowisko Linux)
    • Baza danych: SQL/NoSQL, nie mo偶e to by膰 baza w postaci plik贸w
    • Testy: jednostkowe to minimum, zale偶nie od projektu tak偶e integracyjne

    Summer 2025

    Introduction to Natural Language Processing

    Wprowadzenie do przetwarzania j臋zyka naturalnego

    Harmonogram

    • do 26.03 - ustalenie tematu projektu
    • do 23.04 - dokumentacja wst臋pna (element obowi膮zkowy dokumentacji to wst臋pne wyniki)
    • do 28.05 - oddanie projektu

    Informacje organizacyjne

    • Zespo艂y 2-3 osobowe
    • Konsultacje - 艣roda, 18-19, 306 (pro艣ba o wcze艣niejszy kontakt)
      • Termin elastyczny, je艣li zdalnie.
    • Pytania (element obwi膮zkowy ka偶dego projektu) - Teams/mail/konsultacje

    Propozycje projekt贸w

    W艂asne propozycje temat贸w mile widziane

    1. Realizacja zadania (lub jego cz臋艣ci) z SemEval 2025.
    2. Idiomy w t艂umaczeniu maszynowym
      • Punkt wyj艣ciowy to publikacja Baziotis et al., 2023
      • Projekt mo偶e skupi膰 si臋 na w膮tku ewaluacji (np. LLM贸w) i tworzenia danych lub metodach trenowania (ma艂ych modeli - tutorial w zak艂adce blog)
    3. T艂umczenie kontekstowe - problemy
      • Ewaluacja t艂umaczenia kontekstowego (dokumenty zamiast zda艅)
      • Zadanie eksploracyjne - szukanie ogranicze艅 obecnych modeli i metryk
    4. Por贸wnanie metod Parameter-Efficient Fine-tuning (PEFT) na wybranych zadaniach NLP
      • Wyb贸r r贸偶nych zada艅 NLP (w r贸偶nym typie, np. klasyfikacja i seq2seq)
      • Por贸wnanie kilku metod PEFT w tych zadaniach (np. korzystaj膮c z bilioteki peft lub adapters)
    5. Model merging

    Summer 2023

    Introduction to Natural Language Processing

    Wprowadzenie do przetwarzania j臋zyka naturalnego

    Harmonogram

    • do 29.03 - ustalenie tematu projektu
    • do 19.04 - dokumentacja wst臋pna (element obowi膮zkowy dokumentacji to wst臋pne wyniki)
    • do 31.05 - oddanie projektu

    Informacje organizacyjne

    • Zespo艂y 2 osobowe (w szczeg贸lnych przypadkach 1/3 dopuszczalne)
    • Konsultacje - 艣roda, 18-19, 302 (pro艣ba o wcze艣niejszy kontakt)
      • Termin elastyczny, je艣li zdalnie.
    • Pytania (element obwi膮zkowy ka偶dego projektu) - Teams/mail/konsultacje

    Propozycje projekt贸w

    W艂asne propozycje temat贸w mile widziane. Do projekt贸w zwi膮zanych z t艂umaczeniem maszynowym, dost臋pny jest tutorial w zak艂adce blog (by艂bym wdzi臋czny za feedback i zg艂aszanie b艂臋d贸w ka偶dego typu, liter贸wek te偶).

    1. Idiomy w t艂umaczeniu maszynowym
      • Punkt wyj艣ciowy to publikacja Baziotis et al., 2022
      • T艂umaczenie angielski-polski/polski-angielski
      • Projekt mo偶e si臋 skupi膰 na w膮tku ewaluacji i danych lub metodach trenowania
    2. Wp艂yw metod przetwarzania wst臋pnego na adaptacj臋 domeny w t艂umaczeniu maszynowym
      • Wykorzystanie gotowego modelu t艂umaczenia maszynowego
      • Wyb贸r 1-2 metod adaptacji domeny (np. "fine-tuning" lub adaptery)
      • Analiza wp艂ywu r贸偶nych metod przetwarzania danych (np. filtrowanie w oparciu o stosunek pomi臋dzy d艂ugo艣ciami zda艅, wykrycie j臋zyka, r贸偶nice miar/interpunkcji)
    3. Dekodowanie MBR a Beam search w t艂umaczeniu maszynowym
      • Analiza por贸wnawcza dw贸ch typ贸w dekodowania
      • Wykorzystanie dost臋pnych publicznie modeli i bibliotek
      • Mo偶na skupi膰 si臋 na lingwistycznych r贸偶nicach (lub technicznych jak M眉ller & Sennrich, ACL 2021)
    4. TBA

    Winter 2022/2023

    Introduction to Natural Language Processing

    Wprowadzenie do przetwarzania j臋zyka naturalnego

    Harmonogram (wst臋pny)

    • do 16.11 - ustalenie tematu projektu
    • do 14.12 - dokumentacja wst臋pna (+ wst臋pne wyniki!)
    • do 18.01 - termin oddania projektu

    Informacje organizacyjne

    • Zespo艂y 2 osobowe (w szczeg贸lnych przypadkach 1/3 dopuszczalne)
    • Konsultacje - wtorek, 18-19 (pro艣ba o wcze艣niejszy kontakt)
      • Termin elastyczny, je艣li zdalnie.
    • Pytania - mail/Teams

    Propozycje projekt贸w

    W艂asne propozycje temat贸w mile widziane

    1. Adaptacja domeny poprzez "pre-training" - temat zaj臋ty
      • Przeprowadzenie (na ma艂a skal臋) eksperymentu zbli偶onego do Gururangan et al., ACL 2020
      • Wyb贸r jednego z zada艅 NLP, np. analiza sentymentu + kilku zbior贸w podobnych na kt贸rych b臋dzie wykonywany tylko "pre-training"
      • Por贸wnanie wynik贸w zadania z i bez zastosowania tej metody
    2. Dekodowanie MBR a Beam search w t艂umaczeniu maszynowym
      • Analiza por贸wnawcza dw贸ch typ贸w dekodowania
      • Wykorzystanie dost臋pnych publicznie modeli i bibliotek
      • Mo偶na skupi膰 si臋 na lingwistycznych r贸偶nicach (lub technicznych jak M眉ller & Sennrich, ACL 2021)
    3. Udzia艂 w jednym z zada艅 w ramach konkursu SemEval-2023
      • Cz臋艣ciowy udzia艂 (np. tylko jeden j臋zyk w zadaniach wieloj臋zycznych) jest ok
      • Zespo艂y 3-osobowe s膮 dopuszczalne bez argumentacji ;)
    4. Back-translation w t艂umaczeniu maszynowym - temat zaj臋ty
      • Przeprowadzenie (na ma艂a skal臋) eksperymentu zbli偶onego do Edunov et al., EMNLP 2018
      • Back-translation: 2-3 metody, jedna para j臋zyk贸w, zbi贸r testowy w konkretnej domenie
      • Analiza wynik贸w
    5. Wp艂yw metod przetwarzania wst臋pnego na adaptacj臋 domeny w t艂umaczeniu maszynowym
      • Wykorzystanie gotowego modelu t艂umaczenia maszynowego
      • Wyb贸r 1-2 metod adaptacji domeny (np. "fine-tuning" lub adaptery)
      • Analiza wp艂ywu r贸偶nych metod przetwarzania danych (np. filtrowanie w oparciu o stosunek pomi臋dzy d艂ugo艣ciami zda艅, wykrycie j臋zyka, r贸偶nice numeryczne) na wyniki
    6. TBA

    Summer 2022

    Introduction to Natural Language Processing

    Wprowadzenie do przetwarzania j臋zyka naturalnego

    Harmonogram (wst臋pny)

    • do 23.03 - ustalenie tematu projektu
    • do 13.04 - dokumentacja wst臋pna
    • do 1.06 - termin wys艂ania projektu (prezentacja do ko艅ca semestru, edit: je艣li potrzeba oceny do zwolnienia z kolokwium - to najp贸藕niej dzie艅 przed kolokwium)

    Informacje organizacyjne

    • Zespo艂y 2 osobowe (w szczeg贸lnych przypadkach 1/3 dopuszczalne)
    • Konsultacje - 艣roda, 18-19 (pro艣ba o wcze艣niejszy kontakt)
      • Obecnie zdalnie, wi臋c termin elastyczny
    • Pytania - mail/Teams

    Propozycje projekt贸w

    W艂asne propozycje temat贸w mile widziane

    1. Transliteracja w t艂umaczeniu maszynowym - temat zaj臋ty
      • Wyb贸r pary j臋zyk贸w z r贸偶nym alfabetem (np. 艂aci艅ski - cyrlica)
      • Wytrenowanie modeli t艂umaczenia (bazowgo i poddanego transliteracji)
      • Analiza wynik贸w
    2. Zadanie rozpoznawania koreferencji - temat zaj臋ty
      • Problem wieloj臋zyczny - mo偶na ograniczy膰 si臋 do podzbioru
      • Mo偶e by膰 wi臋kszy zesp贸艂 pod warunkiem pe艂nego udzia艂u
      • Szczeg贸艂y: CRAC'22 Shared Task
    3. Por贸wnanie modeli sekwencyjnych do zadania tokenizacji i segmentacji - temat zaj臋ty
      • Wyb贸r zestawu rozwi膮za艅 i zbi贸r贸w danych w oparciu o literatur臋
      • Test dla min. 2 r贸偶nych j臋zyk贸w
      • Analiza wynik贸w
    4. Adaptery w NLP - temat zaj臋ty
      • Wyb贸r zadania/zada艅 NLP z odpowiednimi schematami (np. problem wieloj臋zyczny, adaptacja domeny)
      • Por贸wnanie, analiza dotrenowania modelu j臋zykowego (np. mBERT) do konkretnego zadania z Adapterami i bez
    5. Por贸wnanie r贸偶nych typ贸w tagowania w zadaniu rozpoznawania jednostek nazewniczych - temat zaj臋ty
      • Wyb贸r zbior贸w zada艅 (2 r贸偶ne j臋zyki)
      • Wyb贸r kilku sposob贸w adnotacji (IO/BIO/...) oraz architektury
      • Por贸wnianie rozwi膮za艅
    6. Back-translation w t艂umaczeniu maszynowym - temat zaj臋ty
      • Przeprowadzenie (na ma艂a skal臋) eksperymentu zbli偶onego do Edunov et al., EMNLP 2018
      • Back-translation: 2-3 metody, jedna para j臋zyk贸w, zbi贸r testowy w konkretnej domenie
      • Analiza wynik贸w
    7. Shared Task w ramach jednej z konferencji *ACL'22
    8. TBA