Temeljni projekt: Razvoj naprednih tehnik odkrivanja znanj v podatkih in analize podskupin za bibliometrično analizo: Pythonov paket Biblium in dodatek Orangebib za Orange (J5-50183)
Vodja: izr. prof. dr. Lan Umek (od 1. 10. 2023 do 30. 9. 2026)
Bibliometrika (bibliometrija) je v zadnjih letih postala vse pomembnejše orodje za vrednotenje in analizo znanstvene literature. Ker se delež bibliometričnih dokumentov med celotno znanstveno produkcijo močno povečuje, je smiselno vključiti v bibliometriko tudi sicer zapostavljene naprednejše statistične metode, zlasti tiste, ki so povezane z odkrivanjem znanj v podatkih in analizo podskupin. Kljub dejstvu, da se podskupine naravno pojavljajo v bibliografskih podatkih (časovna razsežnost, zemljepisno področje, vsebina itd.), se jih v dosedanjem delu ni veliko uporabljalo. V tem projektu bomo navedli konkretne primere pristopov metod odkrivanja znanj v podatkih, ki bi jih lahko vključili v bibliometriko, zlasti v zvezi z napovedovanjem (klasifikacija in regresija) in analizo podskupin.
Da bi zapolnili to vrzel, bomo v bibliometriko kot prvi uvedli dva pristopa odkrivanja podskupin. Cilj obeh algoritmov je odkriti podskupine bibliografskih dokumentov, ki odražajo značilno povezanost med dvema vidikoma, npr. med ključnimi besedami in avtorji. Prvi algoritem bo kombiniral pristop razvrščanja v skupine in analizo kontingenčnih tabel ter odkril podskupine dokumentov, ki odražajo značilno povezanost med analiziranima vidikoma. Drugi algoritem bo združil pristop razvrščanja v skupine s hierarhičnim združevanjem in tehnike statistične klasifikacije (kot so logistična regresija, metoda podpornih vektorjev, nevronske mreže itd.) ter odkril podskupine, ki so si podobne glede na en analizirani vidik in jih je mogoče zanesljivo ločiti od preostalih dokumentov po drugem analiziranem vidiku.
V projektu bomo osnovne in naprednejše bibliometrične postopke implementirali v Pythonov paket Biblium. Biblium bo najbolj celovit paket v Pythonu za bibliometrično analizo, saj bo vključeval vse metode R-jevega paketa Bibliometrix, skupaj z zahtevnejšimi metodami za analizo bibliografskih podatkov, vključno z metodami odkrivanja znanj iz podatkov in analizo podskupin. Poleg tega bomo izvedli bibliometrično analizo bibliometrike ter implementirali različne najsodobnejše pristope in vizualizacije, ki se izvajajo v različnih programih, vendar niso zajeti pod enim okriljem.
V sklepni fazi projekta bomo paket Biblium vključili v odprtokodno programsko opremo za odkrivanje znanj v podatkih Orange kot njen dodatek Orangebib. Ta integracija bo povezala bibliometrično analizo z metodami odkrivanja znanj v podatkih v uporabniku prijazno programsko opremo, ki za uporabo ne zahteva znanja programiranja. Skupaj z obstoječimi dodatki za Orange (bioinformatika, napredno odkrivanje zakonitosti v besedilih, zemljepisni prikazi itd.) bodo uporabniki Orange lahko prišli do novih idej za analize bibliografskih podatkov in pomembno prispevali k področju bibliometrike.
V projektu nameravamo tehnike odkrivanja znanj iz podatkov in odkrivanja podskupin v bibliometriki preizkusiti na več področjih, vključno z aplikacijami od naravoslovja (medicina, ponovna uporaba zdravil, genetika itd.) do družboslovja (javna uprava, spletno učenje, davki, umetna inteligenca in disruptivne tehnologije v javnem sektorju itd.)
Kot rezultate projekta nameravamo objaviti več člankov, vključno s programskimi in metodološkimi članki v uglednih revijah s področja bibliometrike in odkrivanja znanj v podatkih ter aplikacijami razvitih in implementiranih orodij v različnih revijah s področja naravoslovja in družboslovja. Poleg tega se nameravamo udeležiti več mednarodnih (in domačih) konferenc s področja bibliometrike, na katerih bosta predstavljena Biblium in Orangebib. Kot končni rezultat nameravamo organizirati brezplačno enodnevno spletno delavnico, na kateri se bodo uporabniki naučili, kako z orodjem Orangebib na enostaven način izvajati napredne bibliometrične analize.
Trajanje projekta (od/do):
1.10.2023 – 30.9.2026
Naročnik:
Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Financiranje:
Projekt je financiran z 2571 letnimi urami cenovnega razreda A za obdobje 3 let.
Člani projektne skupine s povezavami na SICRIS:
Kaja Godec (STS), do 30.11.2023
Suzana Mišić, od 1.12.2023