Наредни састанак Семинара биће одржан онлајн у среду, 11. децембра 2024. године, са почетком у 19 часова.
Предавач: Биљана Стојановић, Математички институт САНУ
Наслов предавања: ТАЧНОСТ КЛАСИФИКАЦИОНИХ МОДЕЛА ПРИ НАРУШЕНОЈ ВЕРОДОСТОЈНОСТИ УЛАЗНИХ ПОДАТАКА
Апстракт: У овом предавању се приказује утицај веродостојности улазних података на квалитет и тачност (енгл. accuracy) формираних класификационих модела. Циљ је да се покаже у којим случајевима и у ком проценту подаци морају да буду веродостојни и какви су губици уколико се ради са деградираним подацима (енгл. poisoning data), при чему степен деградације (енгл. poisoning data) може да варира. Материјал који се користи у експерименту обухвата податке који карактеришу SARS_CoV_2 коронавирус. Модели се формирају на основу израчунатих карактеристичних профила (вектора реалних вредности) према употреби кодона (енгл. Codon Usage Bias) у кодирајућим секвенцама протеина вируса. Истраживање има за циљ да утврди у којој мери веродостојност података за формирање класификационих модела утиче на тачност предвиђања типа протеина вируса према употреби кодона.
Две основне деградације података при формирању класификационих модела (енгл. poisoning attack on training data) које се разматрају су деградација улазних атрибута модела и модификација лабела података (атрибута класа модела). Модификација улазних атрибута обухвата промене над изабраним подскупом атрибута, као и над свим атрибутима. Атрибути се постављају на случајно изабране вредности и на изабране вредности према типу протеина. Лабеле података се модификују случајним избором нове вредности или циљаном изменом само појединих лабела. У експерименту се за формирање класификационих модела користи више алгоритама. За сваки вид модификације података приказује се укупна тачност предвиђања модела, као и тачност предвиђања појединачних типова протеина вируса. Захваљујући стабилности класификационих алгоритама (и начину на који формирају модел), експеримент показује да добијени модели имају високу тачност. Без обзира на то који алгоритам се користи, добијају се врло слични резултати у погледу односа тачности предвиђања модела и степена деградације улазних података.
Напомена: Регистрациона форма за учешће и линк за активно праћење предавања за регистроване кориснике (након логовања):
https://miteam.mi.sanu.ac.rs/asset/CW5nJWDSEZDj7p32p
Нерегистровани корисници могу да прате предавања на овом линку (без могућности активног учешћа):
https://miteam.mi.sanu.ac.rs/call/hR9vL94nD6QE8qQZj/xET9GcPMyR08nqH8lnS3SE7N5Vf00H7Lp9EBhsv6Lti