Korpusni pristop in jezikovne tehnologije v leksikografiji

OPIS PREDMETA

Korpusni pristop in jezikovne tehnologije v leksikografiji

Program:

Primerjalni študij idej in kultur (3. stopnja)

Modul:

Jezikoslovje: leksikologija, terminologija, slovaropisje in slovničarstvo

Koda predmeta: Po57

Letnik: brez letnika

Nosilka

Izr. prof. dr. Darja Fišer

ECTS: 6

Obseg: predavanja 20 ur, seminar 10 ur, samostojno delo 150 ur

Vrsta predmeta: splošno izbirni

Jeziki: slovenščina, angleščina

Metode poučevanja in učenja: predavanja, seminar

Učni načrt predmeta

Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti:

Za vključitev v delo ni posebnih pogojev. Priporoča se predhodno poznavanje osnovnih jezikoslovnih teorij, splošne leksikologije in slovničarstva.

Vsebina

1. Uvod

a. Humanistika in računalništvo

b. Formalno in korpusno jezikoslovje

c. Slovarski in drugi digitalni priročniki

d. Jezikovni viri in jezikovne tehnologije

2. Korpusno jezikoslovje

a. Namembnost, definicija, zgodovina

b. Zvrsti korpusov s primeri

c. Korpusne oznake

d. Uporaba konkordančnikov

e. Regularni izrazi

3. Strukturiranje jezikovnih virov

a. Standardi in odprta koda

b. Nabori znakov

c. Standard XML

d. Priporočila TEI

e. Jezikoslovne oznake

4. Izdelava jezikovnih virov

a. Proces izdelave korpusa

b. Licence, avtorske pravice in varovanje zasebnosti

c. Zasnova označevalskega projekta

d. Okolja za označevanje

e. Množičenje

f. Programi osnovani na pravilih

g. Strojno učenje

Seminarji

Seminarji potekajo vzporedno s predavanji in se navezujejo na posamezne tematske sklope predavanj. Poudarek je na samostojnem raziskovanju in predstavitvi izbranih problemov, kar vključuje seznanjanje z izbrano literaturo, uporabo jezikovnih virov (predvsem korpusov) pri raziskovanju problema in predstavitev rezultatov, ki jih obiskovalci seminarja skupno analiziramo.

Povezava z drugimi predmeti

Za uspešno razumevanje snovi je potrebno osnovno poznavanje dela z računalniki in sposobnost logičnega mišljenja. Predmet se smiselno povezuje s predmetoma Leksikologija, leksikografija in slovničarstvo sodobnega jezika in Zgodovinska leksikologija in leksikografija ter zgodovinska slovnica.

Temeljni literatura in viri

Na seznamu je osnovna literatura, poleg katere bodo študentke in študenti prejeli še dodaten seznam besedil, ki bodo prišla v poštev za posamezna predavanja in seminarsko delo.

Erjavec, Tomaž. 2013: Korpusi in konkordančniki na strežniku nl.ijs.si. Slovenščina 2.0, 1/1, str. 24-49. http://www.trojina.org/slovenscina2.0/arhiv/2013/1/Slo2.0_2013_1_03.pdf.
Finlayson, Mark A., Erjavec, Tomaž. Overview of annotation creation: processes and tools. V: IDE, Nancy M. (ur.), PUSTEJOVSKY, James (ur.). Handbook of linguistic annotation. Amsterdam: Springer. 2017, str. 167-192. https://arxiv.org/abs/1602.05753
Fišer, Darja, Ljubešić, Nikola, Erjavec, Tomaž. The Janes project: language resources and tools for Slovene user generated content. Language resources and evaluation. 2020, vol. 54, str. 223–246. https://rdcu.be/7RX4
Fišer, Darja, Ljubešić, Nikola. Distributional modelling for semantic shift detection. International journal of lexicography, ISSN 0950-3846, June 2019, vol. 32, no. 2, str. 163-183
Gorjanc, Vojko, Fišer, Darja 2013: Korpusna analiza. 2., predelana in razširjena izd. Ljubljana: Znanstvena založba Filozofske fakultete.
Logar, Nataša in dr. 2012: Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Zbirka Sporazumevanje. Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede. https://knjigarna.fdv.si/i_578_korpusi-slovenskega-jezika-gigafida-kres-ccgigafida-in-cckres-gradnja-vsebina-uporaba
Raziskovalna infrastruktura CLARIN.SI: http://www.clarin.si/
Standard XML: http://en.wikipedia.org/wiki/XML
Priporočila TEI: https://tei-c.org/

Cilji in kompetence

Sodobna leksikografija in slovničarstvo sta nepredstavljiva brez računalniških orodij, tako pri raziskovanju jezikovnega materiala kot za strukturiranje in računalniški prikaz rezultatov dela. Predmet zato obravnava hitro razvijajoče se področje digitalne humanistike, osredotočeno na korpusno jezikoslovje in jezikovne tehnologije slovenskega jezika. Na teh področjih se je v zadnjih letih zgodil velik premik, tako da je sedaj dostopno večje število korpusov, od referenčnega korpusa sodobnega jezika Gigafida, govornega korpusa GOS, korpusa starejših besedil IMP itd., obstaja pa tudi že večje število (spletnih) orodij za jezikoslovne označevanje, npr. lematizatorji ter oblikoskladenjski in skladenjski označevalniki. Cilj predmeta je študentom in študentkam podati znanja, da bodo obstoječe korpuse in orodja znali uporabljati ter individualno ali v okviru projektov izdelovati nove. Predmet bo obravnaval tri tematike: korpusno jezikoslovje, strukturiranje jezikovnih virov ter njihovo jezikoslovno označevanje. Pri korpusnem jezikoslovju bo poudarek na spoznavanju instrumentarija, ki ga ponujajo sodobni konkordančniki, od konkordanc in frekvenčnih leksikonov do ključnih besed in kolokacij. Tu bo ključno razumevanje regularnih izrazov, korpusnih oznak in specifik ter namembnosti dostopnih korpusov in konkordančnikov slovenskega jezika. Za bolj poglobljeno razumevanje korpusov in digitalnih slovarskih baz ter formalnih opisov jezikovnih modelov so potrebna osnovna računalniška znanja s področja zapisa znakov in strukturiranja besedilnih podatkov. Za prvo je glavni standard Unikod, ki omogoča kodiranje vseh svetovnih abeced, za drugo pa standard XML, ki je meta-jezik za označevanje polstrukturiranih podatkov. V XML je mogoče definirati sheme, ki določajo besedišče in medsebojne odvisnosti oznak za posamezne zvrsti dokumentov, pri čemer obstaja že večje število standardiziranih shem. Za strukturiranje in označevanje besedil v humanističnih študijah so se najbolj uveljavila Priporočila za kodiranje besedil TEI (Text Encoding Initiative Guidelines), s katerimi je mogoče zapisati zelo raznovrstna besedila, in to v poljubnem jeziku, uporabljajo pa se tudi v večini korpusov slovenskega jezika. V sklopu predavanj bodo obravnavane osnove Unikoda, XML, XML shem in TEI, s čimer bodo študenti in študentke dobili dobro osnovo za samostojno uporabo teh standardov in priporočil. V zadnjem sklopu predavanj se bomo podrobneje posvetili metodam za izdelavo jezikovnih virov, predvsem korpusov, od zbiranja besedil, njihove obdelave in ročnega označevanja. Podrobneje bodo obravnavane avtomatske metode označevanja s poudarkom na metodah, ki temeljijo na strojnem učenju, saj je to v zadnjih letih postala najuspešnejša metoda za jezikoslovno označevanje.

Predvideni študijski rezultati

poglobljena seznanjenost in praktične kompetence za uporabo instrumentarija korpusnega jezikoslovja;
seznanjenost in praktične kompetence pri strukturiranju jezikovnih virov;
poznavanje postopkov ročnega in strojnega jezikoslovnega označevanja;
specializirana informacijskotehnološka znanja.

Metode poučevanja in učenja:

Oblike dela:

Frontalna oblika poučevanja
Samostojno delo študentov
e-izobraževanje

Metode (načini) dela:

Razlaga
Razgovor/ diskusija/debata
Proučevanje primera

Načini ocenjevanja

Daljši pisni izdelek (80 %),
končno ocenjevanje (pisni ali ustni izpit) (20 %).

Reference nosilca

FIŠER, Darja, LJUBEŠIĆ, Nikola, ERJAVEC, Tomaž. The Janes project: language resources and tools for Slovene user generated content. Language resources and evaluation, ISSN 1574-020X, 2020, vol. 54, no. 1, str. 223-246, ilustr.
FIŠER, Darja, LJUBEŠIĆ, Nikola. Distributional modelling for semantic shift detection. International journal of lexicography. June 2019, vol. 32, no. 2, str. 163-183, ilustr., tabele. ISSN 0950-3846. https://academic.oup.com/ijl/advance-article/doi/10.1093/ijl/ecy011/5051703.
GORJANC, Vojko, FIŠER, Darja. Twitter in razmerja moči: diskurzna analiza kampanj ob referendumu za izenačitev zakonskih zvez v Sloveniji. Slavistična revija: časopis za jezikoslovje in literarne vede. [Tiskana izd.]. okt.-dec. 2018, letn. 66, št. 4, str. 473-495, ilustr. ISSN 0350-6894. https://srl.si/ojs/srl/article/view/2018-4-1-5.
MILIČEVIĆ, Maja, LJUBEŠIĆ, Nikola, FIŠER, Darja. Nestandardno zapisivanje srpskog jezika na Tviteru: mnogo buke oko malo odstupanja?. Anali Filološkog fakulteta. 2017, vol. 29, no. 2, str. 111-136, ilustr. ISSN 0522-8468. http://doi.fil.bg.ac.rs/pdf/journals/analiff/2017-2/analiff-2017-29-2-8.pdf.

OPIS PREDMETA