Grebanje veba, kopanje po tekstovima eks-Ju roka, Pajton i ostale informatičke zavrzlame - Zvanična blog stranica multidisciplinarnih Studija pri Univerzitetu u Beogradu

Grebanje veba, kopanje po tekstovima eks-Ju roka, Pajton i ostale informatičke zavrzlame

Autor:
Ljudmila Petković
Ljudmila Petković

Ukoliko čitate ovaj tekst, i pitate se šta je to internet toliko zgrešio kad se neko odlučio da ga grebe, ili vam je još manje jasno kome bi palo na pamet da rudari po tekstovima pesama Bajage, Divljih Jagoda i ostalih giganata jugoslovenskog rokenrola – onda za trenutak delite početne nedoumice diplomirane neohelenistkinje koja se nalazila pred izradom master teze na multidisciplinarnom studijskom programu Računarstvo u društvenim naukama.

Odgovore na navedena pitanja sam počela da nazirem na izbornom predmetu Programiranje za lingviste, gde sam se, za potrebe izrade seminarskog rada, bavila pronalaženjem univerzalnih tema u tekstovima pesama britanskog indi rok sastava Florence + The Machine. Verujem da je to bila prekretnica na mom akademskom putu, jer je projekat spajao moja izrazita interesovanja iz naizgled nesrodnih oblasti – muzike, lingvistike i informatike. Tada sam se po prvi put oprobala u tehnikama “računarske obrade prirodnih jezika” (natural language processing, skr. NLP), “grebanja veba” (web scraping), kopanja po tekstu (text mining), i programiranja u programskom jeziku Pajton (Python).

Prevedeno na jezik razumljiv filologu, “grebanje veba” je podrazumevalo da treba pronaći odgovarajući alat/tehniku za automatsko preuzimanje svih tekstova pesama izvođača sa nekog muzičkog sajta (npr. LyricWiki). Sledeći korak je obuhvatao „kopanje po tekstu”, čiji jedan aspekt može biti i generisanje oblaka reči (word cloud) od najučestalijih reči u tekstu, što je često primenjivana praksa u oblasti vizualizacije podataka (a ako vam se učini zgodnim da isti oblak reči predstavite u nekom specifičnom obliku, možete dobiti i nešto poput gornje ilustracije Fender Stratokastera u bojama jugoslovenske zastave).

Kao apsolutni početnik na polju programiranja, NLP-a i text mining-a nailazila sam na brojne ćorsokake i nemogućnosti da sve svoje istraživačke zamisli sprovedem u delo. U tim trenucima, profesori sa kojima sam sarađivala (i sa kojima i danas sarađujem) strpljivo su mi pružali stručne savete za pravilno rešavanje zadatih problema i uspešno okončanje rada. Zahvaljujući tom prenosu znanja, počela sam da stičem praktične veštine iz računarske obrade teksta, što je omogućilo da ih kasnije  primenim u novim istraživanjima.

Tako je nastala ideja o kreiranju i analizi korpusa tekstova pesama jugoslovenskog rokenrola u okviru mog master rada, i to na obostrano zadovoljstvo, kako mentora i ostalih profesora, tako i mene, kao kandidata za izradu teze. Tokom pregleda literature, zaključila sam da su mnogi stručnjaci istraživali fenomen eks-Ju roka i njegov uticaj na jugoslovensko društvo iz vizure društveno-humanističkih nauka (sociologije, antropologije itd.), ali bez zadiranja u računarsku stranu analize tekstova.

Štaviše, u onoj meri u kojoj je upotreba računarskih tehnologija u obradi tekstova pesama sa ovih prostora bila zanemarena, u toj meri su se brojna istraživanja zasnivala na implementaciji takvih metoda radi analize stranih teksova pesama. Počnimo samo od modelovanja tema (topic modeling) u pekinškoj operi, preko stilometrijske analize tekstova pesama Bitlsa, pa sve do korišćenja programa Coh-Metrix i Linguistic Inquiry and Word Count za uporednu analizu tekstova pesama tekstopisaca koji su izvršili samoubistvo (npr. Kurt Kobejn) i onih koji nisu bili suicidni (Pol Veler).

A računarske analize jugoslovenskih tekstova pesama – ni u naznakama. Otvorio se, dakle, prostor za jedno krajnje uzbudljivo istraživanje koje je sa sobom nosilo obilje izazova na istraživačkom planu: kako anotirati korpus u XML jeziku za označavanje, kako ispraviti “ošišanu latinicu tako da „kosava“ postane „košava“, kako statističkim metodama utvrditi da li je Bijelo Dugme sličnije Josipi Lisac ili Zabranjenom Pušenju, koje su preovlađujuće teme u korpusu, itd. Ako bih tražila „preovlađujuću temu“ u celokupnom procesu izrade master rada, ona bi se mogla svesti na automatizaciju metoda kreiranja i obrade tekstova.

Za kraj bih istakla jedno zanimljivo i često osporavano viđenje računarske analize teksta među tradicionalnim književnim kritičarima. Naime, Franko Moreti, tvorac koncepta “udaljenog čitanja” i „ikonoborac književne kritike“, prema britanskom dnevnom listu Gardijan, u svom eseju „Conjectures on World Literature“ izrekao je jednu misao koja glasi da „mi znamo da čitamo tekstove, ali da li bi sada trebalo da se odučimo od čitanja“. Zapravo, Moreti smatra da je nemoguće ustanoviti dublje veze među entitetima (npr. književnim junacima) uobičajenim linearnim čitanjem. On se stoga zalaže za kvantitativnu analizu velikih kolekcija tekstova i njihovu vizualizaciju u vidu grafova, mapa i drveća, što je ujedno i deo naslova njegove čuvene monografije. Čini mi se da bi ovakav pristup istraživanju mogao bez problema biti zabeležen u silabusu predmeta kao što su Programiranje za lingviste ili Analiza i vizualizacija podataka.

Stečena znanja i na ostalim izbornim predmetima (Savremenim računarskim tehnologijama, Kvantitativnom modeliranju u društvenim naukama i Uvodu u kognitivnu lingvistiku) međusobno su se preplitala i postepeno pronalazila svoju primenu u toku mojih studija i same izrade master rada. Ako vas zanimaju programiranje, baze podataka, statistika, ili, pak, želite da saznate šta se krije iza koncepata “otelovljeni um” ili “big data“, na studijskom programu Računarstvo u društvenim naukama možete detaljnije proučiti svaku od tih oblasti.


Računarstvo u društvenim naukama

Studijski program Računarstvo u društvenim naukama osmišljen je kao program u kome bi studenti koji su završili osnovne akademske studije u nekoj od oblasti društvenih nauka (pravne nauke, ekonomske nauke, filozofija, psihologija, sociologija, demografija…), savladali korišćenje savremenih računarskih tehnologija u društvenim naukama. Studenti stečena znanja mogu primeniti uz korišćenje savremenih Internet tehnologija i servisa, raznih softverskih alata, kao i na način koji je obogaćen kvantitativnim analizama.

Potreba za studijskim programom proističe iz činjenice da je sve veća potražnja za stručnjacima iz oblasti društvenih nauka koji u svom poslu intenzivno koriste savremene tehnologije. Ponuda poslova, kretanja na tržištu, kao i trendovi u privredi, društvu, organima državne uprave i drugim javnim institucijama, nedvosmisleno ukazuju na tu činjenicu. Studije su akreditovane za izvođenje na srpskom i engleskom jeziku.

Završetkom studija kandidati stiču akademski naziv Master računarstva u društvenim naukama.