Семинар Друштва за језичке ресурсе и технологије, 22. децембар 2016.

Наредни састанак Семинара биће одржан у четвртак, 22. децембра 2016. у сали 718 Математичког факултета са почетком у 18 часова. У оквиру састанка планирана су два предавања.

Предавач: Миљана Младеновић

Наслов предавања: ЕВАЛУАЦИЈА СЕМАНТИЧКИХ ОЗНАКА У РУЧНО АНОТИРАНУМ КОРПУСИМА

Апстракт: Анотација корпуса је поступак којим се деловима корпуса придружују додатне информације. Развој и ручна анотација малих делова електронских корпуса значајни су због примене у методама надгледаног машинског учења којима се генеришу модели аутоматске анотације великих електронских корпуса као и због примене у задацима обраде природног језика који користе поступке анотирања као што су: кореновање (енг. stemming), лематизација (енг lemmatisation), означавање врстама речи (енг. PoS tagging), семантичка анотација и др. Како квалитет ручне анотације утиче на успешност ових модела и метода, то је врло важно развити и применити поступке за оцену квалитета ручне анотације. Методе које се користе за оцену квалитета ручне анотације два или више анотатора су статистичке оцене сагласности анотатора и то су најчешће Fleiss’ kappa, Cohen’s kappa и Krippendorff’s alpha оцене, чију примену ћемо приказати на корпусу ироничних твитова – ручно анотираних и оцењених помоћу веб апликације развијене да обезбеди дефинисање жељеног корпуса, његову ручну анотацију од стране већег броја анотатора и статистичку оцену квалитета анотације.
Предавач: Данило Алексић

Наслов предавања: АУТОМАТСКО ПРИКУПЉАЊЕ И ОБРАДА ГРАЂЕ ЗА ЈЕДНО МОРФОЛОШКО ИСТРАЖИВАЊЕ

Апстракт: Излагаће се информатичка страна лингвистичког истраживања чији су резултати представљени у реферату Аниматност и живе машине на овогодишњем Научном састанку слависта у Вукове дане. Испитивана је дистрибуција падежних наставака за акузатив једнине код именица м. рода И врсте које означавају (релативно) самосталне машине, нпр. робот и андроид, а то је захтевало да се утврди фреквенција неочекиваних форми акузатива. Електронски корпус српског језика није доносио довољно резултата за уверљив статистички преглед, па је било потребно направити посебан корпус. Нарочите практичне проблеме стварао је „новински” део корпуса, који је требало саставити од великог броја краћих текстова са разних информативних портала. Како би се тај посао обавио брже и уредније, написан је програм у Python-у. Овом приликом ће се говорити о функцијама и структури тог програма, као и о обради грађе ван Python-а – помоћу регуларних израза и у готовим алатима који су доступни на интернету – са освртима на могућности ових метода и изазове у њиховој примени.