11 Jul
2018

Cilj je projekta Jezično izražavanje emocija: Razvoj računalnih metoda identifikacije i ontološkog modeliranja komunikacije psiholoških stanja u hrvatskom jeziku (EmoCNet) opisati izražavanje emocija i afektivnih stanja u hrvatskome jeziku s ciljem mogućnosti stvaranja modela za strojno učenje i identifikaciju afektivnih stanja iz tekstova. Značaj ovog projekta je u interdisciplinarnom premrežavanju spoznaja iz kognitivnih znanosti o izražavanju emocija, prikupljanju građe o komunikaciji emocija pomoću metoda korpusne i računalne lingvistike te izradi softverskih alata za identificiranje leksičkih, metonimijskih i metaforičkih jezičnih obrazaca izražavanja emocija u hrvatskome.

Uporabom niza metoda digitalne humanistike za automatizirano dohvaćanje podataka iz digitalnih korpusa, njihovo modeliranje, pohranu, integriranje, analizu i vizualizaciju semantičko-sintaktičkih struktura stvorit će se računalno pretraživi korpusi, baza znanja i alati za klasifikaciju afektivnih kategorija i otkrivanje strukture jezičnog izražavanja emocija.

Rezultati projekta bit će predstavljeni na mrežnim stranicama http://emocnet.uniri.hr/ , seminarima i znanstvenim radovima, a omogućiti će razvoj metodologije, resursa i alata za analizu i prepoznavanje emocionalnog značenja u tekstovima hrvatskog jezika te empirijske uvide o kulturnoj i krozkulturnoj kategorizaciji emocija i intra-kulturnim obrascima izražavanja afektivnih fenomena. Članovi projekta: Benedikt Perak, Lucija Načinović, Slobodan Beliga, Filip Rodik i Diana Grgurić.

Važnost prepoznavanja i izražavanja emocionalnih kategorija čini temelj osobnog identiteta, društvenih interakcija i komunikacije. Fenomen je to kojim se bave različite grane društveno-humanističkih istraživanja, od kognitivne lingvistike do diskurzne analize, pri čemu klasifikacija emocija i automatsko prepoznavanje sentimenta u komunikacijskim kodovima ima rastuću ulogu u analizi sadržaja teksta, komunikacijsko-informacijskim znanostima, afektivnom računalstvu i razvoju umjetne inteligencije.

Ispravno izražavanje vlastitih i interpretiranje tuđih afektivnih stanja kulturno je uvjetovani obrazac koji zahtjeva kognitivno procesiranje niza kategorija emocija, osjećaja, njihovih uzroka i bihevioralnih učinaka te poznavanje prikladnog jezičnog koda. Temeljne sastavnice znanja o jezičnom izražavanju afektivnih stanja leksičke su kategorije i jezične konstrukcije. One čuvaju kulturno znanje što je sve moguće doživjeti, što se sve može osjećati prema čemu, i učinkovito izraziti ta subjektivna stanja. U komunikacijskom procesu, jezični iskazi tvore složenu pojmovnu mrežu bioloških, psiholoških i društvenih sastavnica opojmljivanja emocija i afektivnih stanja. Metodološki je zadatak projekta stoga usmjeren na:

  • izradu digitalnog sustava za pohranu korpusa tekstova, morfosintaktičko obilježavanje i sintaktičko-semantičku analizu teksta
  •        klasifikaciju i identifikaciju izražavanja emocija i afektivnih stanja na temelju sintaktičko-semantičkih obrazaca zabilježenih u postojećim i novostvorenim korpusima suvremenog hrvatskog jezika
  • stvaranje baze podataka o jezičnim i kulturološkim obrascima izražavanja afektivnih stanja te obogaćivanje podataka o konvencionaliziranim jezičnim strukturama s podacima emocionalnih ontologija i rječničkih baza
  • izradu modela za strojno učenje obrazaca izražavanja emocija
  • izradu sučelja za pristup, pretragu i vizualizaciju baze znanja

Uporabom niza metoda digitalne humanistike za automatizirano dohvaćanje podataka iz digitalnih korpusa, njihovo modeliranje, pohranu, analizu i vizualizaciju semantičko-sintaktičkih struktura stvorit će se baza znanja i alati za otkrivanje strukture jezičnog izražavanja emocija.

Istraživanje će se provesti na tri korpusa:

1) Korpus hrvatske vršne .hr domene + Slobodna Dalmacija + Vecernji list (hrWac),

2) Korpus Saborskih rasprava (hrSabor),

3) Korpus pjesama hrvatske popularno-glazbene scene od 1990 (hrPops).

Korpus hrWaC .hr vršne domene (https://the.sketchengine.co.uk/corpus/first_form?corpname=preloaded/hrwac22_ws;) kao trenutno najveći pretraživi i morfosintaktički označeni korpus hrvatskog jezika čini osnovu za istraživanje obrazaca. Mogućnosti sumarizacije jezičnih podataka hrWac korpusa koje nudi SketchEngine već su iskorištene u nizu istraživanja, a neki od rezultata mogu se i vidjeti u analizi emocionalnih metafora u bazi metafora MetaNet Hr http://ihjj.hr/metafore/.

Građu za drugi korpus čine recentno objavljeni zapisi saborskih rasprava 5-9 saziva (https://github.com/rodik/Sabor) s 15 godina rasprava (od 2003. – ),-5 saziva sabora (5-9), 5.605 rasprava, 384.839 izjava, 1.212 političara/ki, koji će se morfosintaktički i semantički obilježiti usporedivo s hrWac korpusom (MULTEXT-East v5). Analiza korpusa saborskih rasprava omogućit će identifikaciju različitih kulturnih obrazaca izražavanja emocija u hrvatskoj društveno-političkoj stvarnosti. Ovaj dio analize naslanja se na digitalne metode proučavanja kulture sjećanja provedena unutar projekta FramNat http://framnat.eu/.

Treći korpus hrvatske popularno-glazbene scene od 1990 (hrPops) prikupit će se na temelju podataka Služba zaštite autorskih muzičkih prava (ZAMP http://www.zamp.hr) i Hrvatskog društva skladatelja (HDS http://www.hds.hr/) koja se bavi zaštitom i promocijom hrvatskog glazbenog repertoara. Cilj je izraditi podatkovnu bazu morfosintaktički obilježenih tekstova pjesama na kojima će se provesti identifikacija izražavanja emocija i afektivnih stanja u odnosu na autore tekstova, i izvođače.

Pri analizi tekstova koristit će se alati računalne lingvistike za tokeniziranje (rastavljanje na pojavnice sa morfosintaktičkim obilježjima), lematiziranje (automatsko svođenje na osnovni oblik s temeljnim obilježjem vrsta riječi, roda) i sintaktičko parsiranje (ovisnosna stabla, Reldi API, Universal Dependencies), baze podataka za pohranu (graf svojstvene baze podataka Neo4j, Python py2neo alati) i obogaćivanje emocionalnih kategorija (emocionalne ontologije, pojmovnici, rječnici, baze znanja), graf algoritmi za prepoznavanje ključnih riječi (Page rank, Centrality, Betweenes, Selectivity), algoritmi za prepoznavanje analizu društvenih mreža i zajednica (Louvain, cluster analysis, APOC datoteke Neo4j sustava), kao i alati za prepoznavanje entiteta (Named entity recognition) te modeli za analizu sentimenta na razini rečenica i tekstova (sentiment analysis).

Pri istraživanju se kreće od identificiranja i opisa leksičke razine izražavanja pojmovnih mreža emocija kao entiteta, svojstava i procesa, odnosno imenica („strah“), pridjeva („strašni“) i priloga („strašno“) i glagola („strašiti“), prema sintaktički i semantički složenijim opojmljivanjima emocija uključujući razlučivanje metonimijskih profiliranja („tresu mi se ruke“ [strah|anksioznost]) i prepoznavanje metaforičkih mapiranja („ulio mu je strah“ ->  [agent1 prouzrokuje afektivno stanje: strah u agent2]).

Hijerarhija složenosti konstrukcija uspostavlja se temeljem kognitivnolingvističke analize emotivnih pojmova u sintaktičkim odnosima koji su opisani ovisnosnim stablima (https://the.sketchengine.co.uk/corpus/wsdef?corpname=preloaded/hrwac22_ws , http://universaldependencies.org/treebanks/hr/index.html). Primjerice, jezikoslovna konstrukcija koordinacije [pojam x i pojam y] omogućuje uvid u konvencionalno opojmljivanje ontološki srodnih pojmova, kao što je prikazano za zajednicu imenskih pojmova negativnih osjećaja: x= “strah”, “anksioznost”, “užas”, “strava” na temelju korpusa hrWac.

Sintaktičko-semantička korpusna analiza jezičnih konstrukcija omogućuje uvid u konvencionalizirana svojstva afektivnih kategorija, kao i njihove veze s drugim enitetima koji mogu biti različitih tipova složenosti. Drugim riječima, iz jezičnih se konstrukcija ekstrahiraju istaknuti (50+ za svako sintaktičko obilježje) obrasci izražavanja “kakav je” strah ili gađenjeljubav ili ponos, što se s njima može “napraviti”, što oni “rade, uzrokuju”, postoje li specifični dijelovi tijela na kojima se osobito očituju učinci emocija, postoji li utemeljenost u fizološkim procesima za njihovo izražavanje, što su najčešći uzroci određenih emocija i što su mogući bihevioralni odgovori, kakva su vrednovanja tih emocija? Navedene se značajke istaknutih obrazaca pohranjuju u graf bazu podataka omogućujući statističku sumarizaciju i vizualizaciju podataka, kroz-lingvističku (kako se razlikuje izražavanje emocionalnih kategorija u različitim jezicima)  i intra-kulturalnu (kako se u pojedinim korpusima razlikuje izražavanje emocija) usporedbu te  stvaranje modela za strojno učenje.

Sintaktičko-semantičko istraživanje podijeljeno je u nekoliko faza:

1) Ekstrakcija emocija i afektivnih stanja iz hrWac korpusa opojmljenih kao entiteta (imenica), svojstava (pridjeva, priloga), procesa (glagola)  i njihovo obilježavanje svojstvima emotivnih ontologija.
2) Ekstrakcija i analiza sintaktičko-semantičkih odnosa među instancama emocionalnih domena
3) Identifikacija meronimijske kongruentnosti i profiliranja metonimijskih odnosa u konstrukcijama emocionalnih domena
4) Identifikacija meronimijske nekongruentnosti i metaforičkih mapiranja odnosa u konstrukcijama emocionalnih domena

Osim analize jezičnih obrazaca izražavanja emocija Korpus saborskih rasprava ontološki će se raščlaniti prema pojedinim govornicima, temama rasprave, godinama i političkim strankama s ciljem uvida u obilježja kulturoloških aspekata izražavanja emocija u društvenim mrežama. Na temelju uspostavljene metodologije istraživanja te razvoja aplikacije na mrežnim stranicama projekta,  analiza će se moći primijeniti na sadašnje i buduće sazive Hrvatskog sabora sabora kroz sučelje koje će postati suvremeni digitalni analitički alat za dijakronijsko praćenje politički značajnih komunikacijskih interakcija u Saboru Republike Hrvatske.

Korpus pjesama hrvatske popularno-glazbene scene (hrPops) klasificirat će se prema autorima tekstova i glazbe, vremenu nastanka i izvođačima. Korpus će se izgraditi na temelju podataka Služba zaštite autorskih muzičkih prava (ZAMP http://www.zamp.hr) i Hrvatskog društva skladatelja (HDS http://www.hds.hr/) koje se bave zaštitom i promocijom hrvatskog glazbenog repertoara. Istraživanje će omogućiti razvoj tekstualne analize, klasifikaciju pjesama i tekstova prema različitim glazbenim izvođačima i žanrovima te postaviti temelje za buduće istraživanje multimodalnosti izražavanja emocija.

Baza sintaktičko-semantičkih obrazaca izražavanja afektivnih kategorija mapirat će se na ontološku strukturu 16 emergentnih razina složenosti materijalnih, psiholoških i društveno-kulturnih domena prikazanih na ilustraciji 2 (od egzistencije do kulturnih modela) i integrirati (uporabom Neo4j kao baze za ELT) s podacima afektivne ontologije Schererove teorije emocija (https://bioportal.bioontology.org/ontologies/MFOEM),  emocionalnim ontologijama usklađenima s Ortony, Clore, i Collinsovim opisima afektivnih fenomena (https://bioportal.bioontology.org/ontologies/VEO), te ostalim informacijama o  prijevodnim ekvivalentima na druge jezike pomoću on-line rječničkih aplikacija (GoogleTranslate API, BabelNet http://babelnet.org/), i  ostalim bazama znanja (WordNet https://wordnet.princeton.edu/, Wikidata https://www.wikidata.org/, ConceptNet http://conceptnet.io/).

Na temelju cjelokupnog sustava kvalitativnog i kvantitativnog obogaćivanja podataka o vrstama afektivnih fenomena i njihovih odnosa sa drugim sintaktički-semantičkim povezanim entitetima, svojstvima i procesima stvorit će se baza znanja o kulturološkim obrascima izražavanja emocija u hrvatskome te razviti modeli za automatsko identificiranje afektivnih stanja u tekstovima.

Objedinjenim podacima pohranjenima u graf bazi podataka Neo4j moći se pristupiti preko aplikacije na portalu www.emocnet.uniri.hr. Sučelje tog portala pružit će znanstvenicima i široj zainteresiranoj javnosti prikaz korpusnih podataka prikupljenih na projektu EmoCNet, vizualizacije kvalitativnih i kvantitativnih analiza obrazaca izražavanja, stvaranje korisničkih upita u bazi znanja o izražavanju emocija i afektivnih stanja te mogućnost analize izražavanja emocija i afektivnih stanja u korisničkim tekstovima.

Istraživački resursi i alati za analizu teksta, obradu izražavanja emocija i afektivnih stanja moći će se ponuditi rastućim potrebama istraživača digitalne humanistike (DARIAH, CLARIN), postavljajući Sveučilište u Rijeci u sklad sa suvremenim tendencijama u znanosti i društveno primjenjivim vrstama istraživanja.

2018_PrijavaJezicnoIzrazavanjeEmocija.docx

Benedikt Perak

bperak@ffri.hr

Leave a comment:

Your email address will not be published. Required fields are marked *