teaching

Summer 2023

Introduction to Natural Language Processing

Wprowadzenie do przetwarzania j臋zyka naturalnego

Harmonogram

  • do 29.03 - ustalenie tematu projektu
  • do 19.04 - dokumentacja wst臋pna (element obowi膮zkowy dokumentacji to wst臋pne wyniki)
  • do 31.05 - oddanie projektu

Informacje organizacyjne

  • Zespo艂y 2 osobowe (w szczeg贸lnych przypadkach 1/3 dopuszczalne)
  • Konsultacje - 艣roda, 18-19, 302 (pro艣ba o wcze艣niejszy kontakt)
    • Termin elastyczny, je艣li zdalnie.
  • Pytania (element obwi膮zkowy ka偶dego projektu) - Teams/mail/konsultacje

Propozycje projekt贸w

W艂asne propozycje temat贸w mile widziane. Do projekt贸w zwi膮zanych z t艂umaczeniem maszynowym, dost臋pny jest tutorial w zak艂adce blog (by艂bym wdzi臋czny za feedback i zg艂aszanie b艂臋d贸w ka偶dego typu, liter贸wek te偶).

  1. Idiomy w t艂umaczeniu maszynowym
    • Punkt wyj艣ciowy to publikacja Baziotis et al., 2022
    • T艂umaczenie angielski-polski/polski-angielski
    • Projekt mo偶e si臋 skupi膰 na w膮tku ewaluacji i danych lub metodach trenowania
  2. Wp艂yw metod przetwarzania wst臋pnego na adaptacj臋 domeny w t艂umaczeniu maszynowym
    • Wykorzystanie gotowego modelu t艂umaczenia maszynowego
    • Wyb贸r 1-2 metod adaptacji domeny (np. "fine-tuning" lub adaptery)
    • Analiza wp艂ywu r贸偶nych metod przetwarzania danych (np. filtrowanie w oparciu o stosunek pomi臋dzy d艂ugo艣ciami zda艅, wykrycie j臋zyka, r贸偶nice miar/interpunkcji)
  3. Dekodowanie MBR a Beam search w t艂umaczeniu maszynowym
    • Analiza por贸wnawcza dw贸ch typ贸w dekodowania
    • Wykorzystanie dost臋pnych publicznie modeli i bibliotek
    • Mo偶na skupi膰 si臋 na lingwistycznych r贸偶nicach (lub technicznych jak M眉ller & Sennrich, ACL 2021)
  4. TBA

Winter 2022/2023

Introduction to Natural Language Processing

Wprowadzenie do przetwarzania j臋zyka naturalnego

Harmonogram (wst臋pny)

  • do 16.11 - ustalenie tematu projektu
  • do 14.12 - dokumentacja wst臋pna (+ wst臋pne wyniki!)
  • do 18.01 - termin oddania projektu

Informacje organizacyjne

  • Zespo艂y 2 osobowe (w szczeg贸lnych przypadkach 1/3 dopuszczalne)
  • Konsultacje - wtorek, 18-19 (pro艣ba o wcze艣niejszy kontakt)
    • Termin elastyczny, je艣li zdalnie.
  • Pytania - mail/Teams

Propozycje projekt贸w

W艂asne propozycje temat贸w mile widziane

  1. Adaptacja domeny poprzez "pre-training" - temat zaj臋ty
    • Przeprowadzenie (na ma艂a skal臋) eksperymentu zbli偶onego do Gururangan et al., ACL 2020
    • Wyb贸r jednego z zada艅 NLP, np. analiza sentymentu + kilku zbior贸w podobnych na kt贸rych b臋dzie wykonywany tylko "pre-training"
    • Por贸wnanie wynik贸w zadania z i bez zastosowania tej metody
  2. Dekodowanie MBR a Beam search w t艂umaczeniu maszynowym
    • Analiza por贸wnawcza dw贸ch typ贸w dekodowania
    • Wykorzystanie dost臋pnych publicznie modeli i bibliotek
    • Mo偶na skupi膰 si臋 na lingwistycznych r贸偶nicach (lub technicznych jak M眉ller & Sennrich, ACL 2021)
  3. Udzia艂 w jednym z zada艅 w ramach konkursu SemEval-2023
    • Cz臋艣ciowy udzia艂 (np. tylko jeden j臋zyk w zadaniach wieloj臋zycznych) jest ok
    • Zespo艂y 3-osobowe s膮 dopuszczalne bez argumentacji ;)
  4. Back-translation w t艂umaczeniu maszynowym - temat zaj臋ty
    • Przeprowadzenie (na ma艂a skal臋) eksperymentu zbli偶onego do Edunov et al., EMNLP 2018
    • Back-translation: 2-3 metody, jedna para j臋zyk贸w, zbi贸r testowy w konkretnej domenie
    • Analiza wynik贸w
  5. Wp艂yw metod przetwarzania wst臋pnego na adaptacj臋 domeny w t艂umaczeniu maszynowym
    • Wykorzystanie gotowego modelu t艂umaczenia maszynowego
    • Wyb贸r 1-2 metod adaptacji domeny (np. "fine-tuning" lub adaptery)
    • Analiza wp艂ywu r贸偶nych metod przetwarzania danych (np. filtrowanie w oparciu o stosunek pomi臋dzy d艂ugo艣ciami zda艅, wykrycie j臋zyka, r贸偶nice numeryczne) na wyniki
  6. TBA

Summer 2022

Introduction to Natural Language Processing

Wprowadzenie do przetwarzania j臋zyka naturalnego

Harmonogram (wst臋pny)

  • do 23.03 - ustalenie tematu projektu
  • do 13.04 - dokumentacja wst臋pna
  • do 1.06 - termin wys艂ania projektu (prezentacja do ko艅ca semestru, edit: je艣li potrzeba oceny do zwolnienia z kolokwium - to najp贸藕niej dzie艅 przed kolokwium)

Informacje organizacyjne

  • Zespo艂y 2 osobowe (w szczeg贸lnych przypadkach 1/3 dopuszczalne)
  • Konsultacje - 艣roda, 18-19 (pro艣ba o wcze艣niejszy kontakt)
    • Obecnie zdalnie, wi臋c termin elastyczny
  • Pytania - mail/Teams

Propozycje projekt贸w

W艂asne propozycje temat贸w mile widziane

  1. Transliteracja w t艂umaczeniu maszynowym - temat zaj臋ty
    • Wyb贸r pary j臋zyk贸w z r贸偶nym alfabetem (np. 艂aci艅ski - cyrlica)
    • Wytrenowanie modeli t艂umaczenia (bazowgo i poddanego transliteracji)
    • Analiza wynik贸w
  2. Zadanie rozpoznawania koreferencji - temat zaj臋ty
    • Problem wieloj臋zyczny - mo偶na ograniczy膰 si臋 do podzbioru
    • Mo偶e by膰 wi臋kszy zesp贸艂 pod warunkiem pe艂nego udzia艂u
    • Szczeg贸艂y: CRAC'22 Shared Task
  3. Por贸wnanie modeli sekwencyjnych do zadania tokenizacji i segmentacji - temat zaj臋ty
    • Wyb贸r zestawu rozwi膮za艅 i zbi贸r贸w danych w oparciu o literatur臋
    • Test dla min. 2 r贸偶nych j臋zyk贸w
    • Analiza wynik贸w
  4. Adaptery w NLP - temat zaj臋ty
    • Wyb贸r zadania/zada艅 NLP z odpowiednimi schematami (np. problem wieloj臋zyczny, adaptacja domeny)
    • Por贸wnanie, analiza dotrenowania modelu j臋zykowego (np. mBERT) do konkretnego zadania z Adapterami i bez
  5. Por贸wnanie r贸偶nych typ贸w tagowania w zadaniu rozpoznawania jednostek nazewniczych - temat zaj臋ty
    • Wyb贸r zbior贸w zada艅 (2 r贸偶ne j臋zyki)
    • Wyb贸r kilku sposob贸w adnotacji (IO/BIO/...) oraz architektury
    • Por贸wnianie rozwi膮za艅
  6. Back-translation w t艂umaczeniu maszynowym - temat zaj臋ty
    • Przeprowadzenie (na ma艂a skal臋) eksperymentu zbli偶onego do Edunov et al., EMNLP 2018
    • Back-translation: 2-3 metody, jedna para j臋zyk贸w, zbi贸r testowy w konkretnej domenie
    • Analiza wynik贸w
  7. Shared Task w ramach jednej z konferencji *ACL'22
  8. TBA