OPIS PREDMETA

Korpusni pristop in jezikovne tehnologije v leksikografiji


Program:

Primerjalni študij idej in kultur (3. stopnja)

Modul:
Leksikologija, leksikografija, slovničarstvo

Koda predmeta: 57

Letnik: brez letnika


Nosilec / Nosilka
Izr. prof. dr. Tomaž Erjavec
Izr. prof. dr. Darja Fišer

ECTS: 6

Obseg: predavanja 60 ur, seminar 30 ur

Vrsta predmeta: splošno izbirni

Jeziki: slovenščina, angleščina

Metode poučevanja in učenja: predavanja, seminar

 

Učni načrt predmeta

Vsebina

1. Uvod

a. Humanistika in računalništvo

b. Formalno in korpusno jezikoslovje

c. Slovarski in drugi digitalni priročniki

d. Jezikovni viri in jezikovne tehnologije

 

2. Korpusno jezikoslovje

a. Namembnost, definicija, zgodovina

b. Zvrsti korpusov s primeri

c. Korpusne oznake

d. Uporaba konkordančnikov

e. Regularni izrazi

 

3. Strukturiranje jezikovnih virov

a. Standardi in odprta koda

b. Nabori znakov

c. Standard XML

d. Priporočila TEI

e. Jezikoslovne oznake

 

4. Izdelava jezikovnih virov

a. Proces izdelave korpusa

b. Licence, avtorske pravice in varovanje zasebnosti

c. Zasnova označevalskega projekta

d. Okolja za označevanje

e. Množičenje

f. Programi osnovani na pravilih

g. Strojno učenje

 

Seminarji

Seminarji potekajo vzporedno s predavanji in se navezujejo na posamezne tematske sklope predavanj. Poudarek je na samostojnem raziskovanju in predstavitvi izbranih problemov, kar vključuje seznanjanje z izbrano literaturo, uporabo jezikovnih virov (predvsem korpusov) pri raziskovanju problema in predstavitev rezultatov, ki jih obiskovalci seminarja skupno analiziramo.

 

Povezava z drugimi predmeti

Za uspešno razumevanje snovi je potrebno osnovno poznavanje dela z računalniki in sposobnost logičnega mišljenja. Predmet se smiselno povezuje s predmetoma Leksikologija, leksikografija in slovničarstvo sodobnega jezika in Zgodovinska leksikologija in leksikografija ter zgodovinska slovnica.

 

Temeljni literatura in viri

Na seznamu je osnovna literatura, poleg katere bodo študentke in študenti prejeli še dodaten seznam besedil, ki bodo prišla v poštev za posamezna predavanja in seminarsko delo.

 

Cilji in kompetence

Sodobna leksikografija in slovničarstvo sta nepredstavljiva brez računalniških orodij, tako pri raziskovanju jezikovnega materiala kot za strukturiranje in računalniški prikaz rezultatov dela. Predmet zato obravnava hitro razvijajoče se področje digitalne humanistike, osredotočeno na korpusno jezikoslovje in jezikovne tehnologije slovenskega jezika. Na teh področjih se je v zadnjih letih zgodil velik premik, tako da je sedaj dostopno večje število korpusov, od referenčnega korpusa sodobnega jezika Gigafida, govornega korpusa GOS, korpusa starejših besedil IMP itd., obstaja pa tudi že večje število (spletnih) orodij za jezikoslovne označevanje, npr. lematizatorji ter oblikoskladenjski in skladenjski označevalniki. Cilj predmeta je študentom in študentkam podati znanja, da bodo obstoječe korpuse in orodja znali uporabljati ter individualno ali v okviru projektov izdelovati nove. Predmet bo obravnaval tri tematike: korpusno jezikoslovje, strukturiranje jezikovnih virov ter njihovo jezikoslovno označevanje. Pri korpusnem jezikoslovju bo poudarek na spoznavanju instrumentarija, ki ga ponujajo sodobni konkordančniki, od konkordanc in frekvenčnih leksikonov do ključnih besed in kolokacij. Tu bo ključno razumevanje regularnih izrazov, korpusnih oznak in specifik ter namembnosti dostopnih korpusov in konkordančnikov slovenskega jezika. Za bolj poglobljeno razumevanje korpusov in digitalnih slovarskih baz ter formalnih opisov jezikovnih modelov so potrebna osnovna računalniška znanja s področja zapisa znakov in strukturiranja besedilnih podatkov. Za prvo je glavni standard Unikod, ki omogoča kodiranje vseh svetovnih abeced, za drugo pa standard XML, ki je meta-jezik za označevanje polstrukturiranih podatkov. V XML je mogoče definirati sheme, ki določajo besedišče in medsebojne odvisnosti oznak za posamezne zvrsti dokumentov, pri čemer obstaja že večje število standardiziranih shem. Za strukturiranje in označevanje besedil v humanističnih študijah so se najbolj uveljavila Priporočila za kodiranje besedil TEI (Text Encoding Initiative Guidelines), s katerimi je mogoče zapisati zelo raznovrstna besedila, in to v poljubnem jeziku, uporabljajo pa se tudi v večini korpusov slovenskega jezika. V sklopu predavanj bodo obravnavane osnove Unikoda, XML, XML shem in TEI, s čimer bodo študenti in študentke dobili dobro osnovo za samostojno uporabo teh standardov in priporočil. V zadnjem sklopu predavanj se bomo podrobneje posvetili metodam za izdelavo jezikovnih virov, predvsem korpusov, od zbiranja besedil, njihove obdelave in ročnega označevanja. Podrobneje bodo obravnavane avtomatske metode označevanja s poudarkom na metodah, ki temeljijo na strojnem učenju, saj je to v zadnjih letih postala najuspešnejša metoda za jezikoslovno označevanje.

 

Predvideni študijski rezultati

  • poglobljena seznanjenost in praktične kompetence za uporabo instrumentarija korpusnega jezikoslovja;
  • seznanjenost in praktične kompetence pri strukturiranju jezikovnih virov;
  • poznavanje postopkov ročnega in strojnega jezikoslovnega označevanja;
  • specializirana informacijskotehnološka znanja.

 

Načini ocenjevanja

Daljši pisni izdelek (80 %), končno ocenjevanje (pisni ali ustni izpit) (20 %).

IZBIRNI PREDMETI MODULA Z NOSILCI IN NOSILKAMI

Etimološka in dialektološka leksikologija in leksikografija ǀ

Red. prof. dr. Marko Snoj,

Red. prof. dr. Jožica Škofic,

ECTS: 6

Korpusni pristop in jezikovne tehnologije v leksikografiji ǀ

Izr. prof. dr. Tomaž Erjavec,

Izr. prof. dr. Darja Fišer,

ECTS: 6

Leksikologija, leksikografija in slovničarstvo sodobnega jezika ǀ

Doc. dr. Jerica Snoj,

Doc. dr. Nataša Jakop,

ECTS: 6

Normativnost in sociolingvistika v slovarjih, slovnicah in pravopisih ǀ

Izr. prof. dr. Helena Dobrovoljc,

Doc. dr. Nataša Gliha Komac,

ECTS: 6