OPIS PREDMETA

Korpusni pristop in jezikovne tehnologije v leksikografiji


Program:

Primerjalni študij idej in kultur (3. stopnja)

Modul:
Leksikologija, leksikografija, slovničarstvo

Koda predmeta: 57

Letnik: brez letnika


Nosilec / Nosilka
Izr. prof. dr. Tomaž Erjavec
Doc. dr. Darja Fišer

ECTS: 6

Obseg: predavanja 60 ur, seminar 30 ur

Vrsta predmeta: splošno izbirni

Jeziki: slovenščina, angleščina

Metode poučevanja in učenja: predavanja, seminar

Vzgojno izobraževalni smotri

Sodobna leksikografija in slovničarstvo sta nepredstavljiva brez računalniških orodij, tako pri raziskovanju jezikovnega materiala kot za strukturiranje in računalniški prikaz rezultatov dela. Predmet zato obravnava hitro razvijajoče se področje digitalne humanistike, osredotočeno na korpusno jezikoslovje in jezikovne tehnologije slovenskega jezika. Na teh področjih se je v zadnjih letih zgodil velik premik, tako da je sedaj dostopno večje število korpusov, od referenčnega korpusa sodobnega jezika Gigafida, govornega korpusa GOS, korpusa starejših besedil IMP itd., obstaja pa tudi že večje število (spletnih) orodij za jezikoslovne označevanje, npr. lematizatorji ter oblikoskladenjski in skladenjski označevalniki. Cilj predmeta je študentom in študentkam podati znanja, da bodo obstoječe korpuse in orodja znali uporabljati ter individualno ali v okviru projektov izdelovati nove. Predmet bo obravnaval tri tematike: korpusno jezikoslovje, strukturiranje jezikovih virov ter njihovo jezikoslovno označevanje. Pri korpusnem jezikoslovju bo poudarek na spoznavanju instrumentarija, ki ga ponujajo sodobni konkordančniki, od konkordanc in frekvenčnih leksikonov do ključnih besed in kolokacij. Tu bo ključno razumevanje regularnih izrazov, korpusnih oznak in specifik ter namembnosti dostopnih korpusov in konkordančnikov slovenskega jezika. Za bolj poglobljeno razumevanje korpusov in digitalnih slovarskih baz ter formalnih opisov jezikovnih modelov so potrebna osnovna računalniška znanja s področja zapisa znakov in strukturiranja besedilnih podatkov. Za prvo je glavni standard Unikod, ki omogoča kodiranje vseh svetovnih abeced, za drugo pa standard XML, ki je meta-jezik za označevanje polstrukturiranih podatkov. V XML je mogoče definirati sheme, ki določajo besedišče in medsebojne odvisnosti oznak za posamezne zvrsti dokumentov, pri čemer obstaja že večje število standardiziranih shem. Za strukturiranje in označevanje besedil v humanističnih študijah so se najbolj uveljavila Priporočila za kodiranje besedil TEI (Text Encoding Initiative Guidelines), s katerimi je mogoče zapisati zelo raznovrstna besedila, in to v poljubnem jeziku, uporabljajo pa se tudi v večini korpusov slovenskega jezika. V sklopu predavanj bodo obravnavane osnove Unikoda, XML, XML shem in TEI, s čimer bodo študenti in študentke dobili dobro osnovo za samostojno uporabo teh standardov in priporočil. V zadnjem sklopu predavanj se bomo podrobneje posvetili metodam za izdelavo jezikovih virov, predvsem korpusov, od zbiranja besedil, njihove obdelave in ročnega označevanja. Podrobneje bodo obravnavane avtomatske metode označevanja s poudarkom na metodah, ki temeljijo na strojnem učenju, saj je to v zadnjih letih postala najuspešnejša metoda za jezikoslovno označevanje.

 

Pridobljene kompetence

  • poglobljena seznanjenost in praktične kompetence za uporabo instrumentarija korpusnega jezikoslovja
  • seznanjenost in praktične kompetence pri strukturiranju jezikovnih virov
  • poznavanje postopkov ročnega in strojnega jezikoslovnega označevanja 
  • specializirana informacijskotehnološka znanja

 

Vsebina

1. Uvod

a. Humanistika in računalništvo

b. Formalno in korpusno jezikoslovje

c. Slovarski in drugi digitalni priročniki

č. Jezikovni viri in jezikovne tehnologije

 

2. Korpusno jezikoslovje

a. Namembnost, definicija, zgodovina

b. Zvrsti korpusov s primeri

c. Korpusne oznake

č. Uporaba konkordančnikov, temelječih na CWB

d. Regularni izrazi

 

3. Strukturiranje jezikovnih virov

a. Standardi in odprta koda

b. Nabori znakov

c. Standard XML

č. Priporočila TEI

d. Jezikoslovne oznake

 

4. Izdelava jezikovnih virov

a. Proces izdelave korpusa

b. Licence, avtorske pravice in varovanje zasebnosti

c. Zasnova označevalskega projekta

č. Okolja za označevanje

d. Množičenje

e. Programi osnovani na pravilih

f. Strojno učenje

 

Seminarji

Seminarji potekajo vzporedno s predavanji in se navezujejo na posamezne tematske sklope predavanj. Poudarek je na samostojnem raziskovanju in predstavitvi izbranih problemov, kar vključuje seznanjanje z izbrano literaturo, uporabo jezikovnih virov (predvsem korpusov) pri raziskovanju problema in predstavitev rezultatov, ki jih obiskovalci seminarja skupno analiziramo.

 

Povezava z drugimi predmeti

Za uspešno razumevanje snovi je potrebno osnovno poznavanje dela z računalniki in sposobnost logičnega mišljenja. Predmet se smiselno povezuje s predmetoma Leksikologija, leksikografija in slovničarstvo sodobnega jezika in Zgodovinska leksikologija in leksikografija ter zgodovinska slovnica.

 

Učbeniki in učni pripomočki

Na seznamu je osnovna literatura, poleg katere bodo študentke in študenti prejeli še dodaten seznam besedil, ki bodo prišla v poštev za posamezna predavanja in seminarsko delo.

  • Gorjanc, Vojko, Fišer, Darja 2013: Korpusna analiza. 2., predelana in razširjena izd. Ljubljana: Znanstvena založba Filozofske fakultete.
  • Logar, Nataša in dr. 2012: Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Zbirka Sporazumevanje. Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede.
  • Erjavec, Tomaž. 2013: Korpusi in konkordančniki na strežniku nl.ijs.si. Slovenščina 2.0, 1/1, str. 24-49. http://www.trojina.org/slovenscina2.0/arhiv/2013/1/Slo2.0_2013_1_03.pdf. 
  • Erjavec, Tomaž. 2009: Odprtost jezikovnih virov za slovenščino. V: STABEJ, Marko (ur.). Infrastruktura slovenščine in slovenistike, (Obdobja, Simpozij, = Symposium, 28). Ljubljana: znanstvena založba Filozofske fakultete, 2009, str. 115-121. http://www.centerslo.net/files/file/simpozij/simp28/Erjavec.pdf.
  • Jezikovni viri in servisi za slovenski jezik: www.sdjt.si/viri.html 
  • Standard XML: http://en.wikipedia.org/wiki/XML#Further_reading 
  • Priporočila TEI: www.tei-c.org

 

Obveznosti študentk in študentov ter ocenjevanje

  • Pogoj za pristop k izpitu je prisotnost na predavanjih in seminarjih in seminarska naloga (do 10 strani), v kateri študentka ali študent poda analizo nekega problema in svoje argumente podpre z ustrezno literaturo.
  • Študent oz. študentka opravlja ustni izpit iz celotne snovi predmeta.

IZBIRNI PREDMETI MODULA Z NOSILCI IN NOSILKAMI

Etimološka in dialektološka leksikologija in leksikografija ǀ

Red. prof. dr. Marko Snoj,

Izr. prof. dr. Jožica Škofic,

ECTS: 6

Korpusni pristop in jezikovne tehnologije v leksikografiji ǀ

Izr. prof. dr. Tomaž Erjavec,

Doc. dr. Darja Fišer,

ECTS: 6

Leksikologija, leksikografija in slovničarstvo sodobnega jezika ǀ

Doc. dr. Jerica Snoj,

Doc. dr. Nataša Jakop,

ECTS: 6

Normativnost in sociolingvistika v slovarjih, slovnicah in pravopisih ǀ

Doc. dr. Helena Dobrovoljc,

Doc. dr. Nataša Gliha Komac,

ECTS: 6