OPIS PREDMETA
Korpusni pristop in jezikovne tehnologije v leksikografiji
Program:
Primerjalni študij idej in kultur (3. stopnja)
Modul:Leksikologija, leksikografija, slovničarstvo
Koda predmeta: 57
Letnik: brez letnika
Nosilec / Nosilka
Izr. prof. dr. Tomaž Erjavec
Izr. prof. dr. Darja Fišer
ECTS: 6
Obseg: predavanja 60 ur, seminar 30 ur
Vrsta predmeta: splošno izbirni
Jeziki: slovenščina, angleščina
Metode poučevanja in učenja: predavanja, seminar
Vsebina
1. Uvod
a. Humanistika in računalništvo
b. Formalno in korpusno jezikoslovje
c. Slovarski in drugi digitalni priročniki
d. Jezikovni viri in jezikovne tehnologije
2. Korpusno jezikoslovje
a. Namembnost, definicija, zgodovina
b. Zvrsti korpusov s primeri
c. Korpusne oznake
d. Uporaba konkordančnikov
e. Regularni izrazi
3. Strukturiranje jezikovnih virov
a. Standardi in odprta koda
b. Nabori znakov
c. Standard XML
d. Priporočila TEI
e. Jezikoslovne oznake
4. Izdelava jezikovnih virov
a. Proces izdelave korpusa
b. Licence, avtorske pravice in varovanje zasebnosti
c. Zasnova označevalskega projekta
d. Okolja za označevanje
e. Množičenje
f. Programi osnovani na pravilih
g. Strojno učenje
Seminarji
Seminarji potekajo vzporedno s predavanji in se navezujejo na posamezne tematske sklope predavanj. Poudarek je na samostojnem raziskovanju in predstavitvi izbranih problemov, kar vključuje seznanjanje z izbrano literaturo, uporabo jezikovnih virov (predvsem korpusov) pri raziskovanju problema in predstavitev rezultatov, ki jih obiskovalci seminarja skupno analiziramo.
Povezava z drugimi predmeti
Za uspešno razumevanje snovi je potrebno osnovno poznavanje dela z računalniki in sposobnost logičnega mišljenja. Predmet se smiselno povezuje s predmetoma Leksikologija, leksikografija in slovničarstvo sodobnega jezika in Zgodovinska leksikologija in leksikografija ter zgodovinska slovnica.
Temeljni literatura in viri
Na seznamu je osnovna literatura, poleg katere bodo študentke in študenti prejeli še dodaten seznam besedil, ki bodo prišla v poštev za posamezna predavanja in seminarsko delo.
- Erjavec, Tomaž. 2013: Korpusi in konkordančniki na strežniku nl.ijs.si. Slovenščina 2.0, 1/1, str. 24-49. http://www.trojina.org/slovenscina2.0/arhiv/2013/1/Slo2.0_2013_1_03.pdf.
- Finlayson, Mark A., Erjavec, Tomaž. Overview of annotation creation: processes and tools. V: IDE, Nancy M. (ur.), PUSTEJOVSKY, James (ur.). Handbook of linguistic annotation. Amsterdam: Springer. 2017, str. 167-192. https://arxiv.org/abs/1602.05753
- Fišer, Darja, Ljubešić, Nikola, Erjavec, Tomaž. The Janes project: language resources and tools for Slovene user generated content. Language resources and evaluation. 2020, vol. 54, str. 223–246. https://rdcu.be/7RX4
- Fišer, Darja, Ljubešić, Nikola. Distributional modelling for semantic shift detection. International journal of lexicography, ISSN 0950-3846, June 2019, vol. 32, no. 2, str. 163-183
- Gorjanc, Vojko, Fišer, Darja 2013: Korpusna analiza. 2., predelana in razširjena izd. Ljubljana: Znanstvena založba Filozofske fakultete.
- Logar, Nataša in dr. 2012: Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Zbirka Sporazumevanje. Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede. https://knjigarna.fdv.si/i_578_korpusi-slovenskega-jezika-gigafida-kres-ccgigafida-in-cckres-gradnja-vsebina-uporaba
- Raziskovalna infrastruktura CLARIN.SI: http://www.clarin.si/
- Standard XML: http://en.wikipedia.org/wiki/XML
- Priporočila TEI: https://tei-c.org/
Cilji in kompetence
Sodobna leksikografija in slovničarstvo sta nepredstavljiva brez računalniških orodij, tako pri raziskovanju jezikovnega materiala kot za strukturiranje in računalniški prikaz rezultatov dela. Predmet zato obravnava hitro razvijajoče se področje digitalne humanistike, osredotočeno na korpusno jezikoslovje in jezikovne tehnologije slovenskega jezika. Na teh področjih se je v zadnjih letih zgodil velik premik, tako da je sedaj dostopno večje število korpusov, od referenčnega korpusa sodobnega jezika Gigafida, govornega korpusa GOS, korpusa starejših besedil IMP itd., obstaja pa tudi že večje število (spletnih) orodij za jezikoslovne označevanje, npr. lematizatorji ter oblikoskladenjski in skladenjski označevalniki. Cilj predmeta je študentom in študentkam podati znanja, da bodo obstoječe korpuse in orodja znali uporabljati ter individualno ali v okviru projektov izdelovati nove. Predmet bo obravnaval tri tematike: korpusno jezikoslovje, strukturiranje jezikovnih virov ter njihovo jezikoslovno označevanje. Pri korpusnem jezikoslovju bo poudarek na spoznavanju instrumentarija, ki ga ponujajo sodobni konkordančniki, od konkordanc in frekvenčnih leksikonov do ključnih besed in kolokacij. Tu bo ključno razumevanje regularnih izrazov, korpusnih oznak in specifik ter namembnosti dostopnih korpusov in konkordančnikov slovenskega jezika. Za bolj poglobljeno razumevanje korpusov in digitalnih slovarskih baz ter formalnih opisov jezikovnih modelov so potrebna osnovna računalniška znanja s področja zapisa znakov in strukturiranja besedilnih podatkov. Za prvo je glavni standard Unikod, ki omogoča kodiranje vseh svetovnih abeced, za drugo pa standard XML, ki je meta-jezik za označevanje polstrukturiranih podatkov. V XML je mogoče definirati sheme, ki določajo besedišče in medsebojne odvisnosti oznak za posamezne zvrsti dokumentov, pri čemer obstaja že večje število standardiziranih shem. Za strukturiranje in označevanje besedil v humanističnih študijah so se najbolj uveljavila Priporočila za kodiranje besedil TEI (Text Encoding Initiative Guidelines), s katerimi je mogoče zapisati zelo raznovrstna besedila, in to v poljubnem jeziku, uporabljajo pa se tudi v večini korpusov slovenskega jezika. V sklopu predavanj bodo obravnavane osnove Unikoda, XML, XML shem in TEI, s čimer bodo študenti in študentke dobili dobro osnovo za samostojno uporabo teh standardov in priporočil. V zadnjem sklopu predavanj se bomo podrobneje posvetili metodam za izdelavo jezikovnih virov, predvsem korpusov, od zbiranja besedil, njihove obdelave in ročnega označevanja. Podrobneje bodo obravnavane avtomatske metode označevanja s poudarkom na metodah, ki temeljijo na strojnem učenju, saj je to v zadnjih letih postala najuspešnejša metoda za jezikoslovno označevanje.
Predvideni študijski rezultati
- poglobljena seznanjenost in praktične kompetence za uporabo instrumentarija korpusnega jezikoslovja;
- seznanjenost in praktične kompetence pri strukturiranju jezikovnih virov;
- poznavanje postopkov ročnega in strojnega jezikoslovnega označevanja;
- specializirana informacijskotehnološka znanja.
Načini ocenjevanja
Daljši pisni izdelek (80 %), končno ocenjevanje (pisni ali ustni izpit) (20 %).