Гребање веба, копање по текстовима екс-Ју рока, Пајтон и остале информатичке заврзламе - Званична блог страница мултидисциплинарних Студија при Универзитету у Београду

Гребање веба, копање по текстовима екс-Ју рока, Пајтон и остале информатичке заврзламе

Autor:
Људмила Петковић
Људмила Петковић

Уколико читате овај текст, и питате се шта је то интернет толико згрешио кад се неко одлучио да га гребе, или вам је још мање јасно коме би пало на памет да рудари по текстовима песама Бајаге, Дивљих Јагода и осталих гиганата југословенског рокенрола – онда за тренутак делите почетне недоумице дипломиране неохеленисткиње која се налазила пред израдом мастер тезе на мултидисциплинарном студијском програму Рачунарство у друштвеним наукама.

Одговоре на наведена питања сам почела да назирем на изборном предмету Програмирање за лингвисте, где сам се, за потребе израде семинарског рада, бавила проналажењем универзалних тема у текстовима песама британског инди рок састава Florence + The Machine. Верујем да је то била прекретница на мом академском путу, јер је пројекат спајао моја изразита интересовања из наизглед несродних области – музике, лингвистике и информатике. Тада сам се по први пут опробала у техникама “рачунарске обраде природних језика” (natural language processing, скр. NLP), “гребања веба” (web scraping), копања по тексту (text mining), и програмирања у програмском језику Пајтон (Python).

Преведено на језик разумљив филологу, “гребање веба” је подразумевало да треба пронаћи одговарајући алат/технику за аутоматско преузимање свих текстова песама извођача са неког музичког сајта (нпр. LyricWiki). Следећи корак је обухватао „копање по тексту”, чији један аспект може бити и генерисање облака речи (word cloud) од најучесталијих речи у тексту, што је често примењивана пракса у области визуализације података (а ако вам се учини згодним да исти облак речи представите у неком специфичном облику, можете добити и нешто попут горње илустрације Фендер Стратокастера у бојама југословенске заставе).

Као апсолутни почетник на пољу програмирања, NLP-а и text mining-a наилазила сам на бројне ћорсокаке и немогућности да све своје истраживачке замисли спроведем у дело. У тим тренуцима, професори са којима сам сарађивала (и са којима и данас сарађујем) стрпљиво су ми пружали стручне савете за правилно решавање задатих проблема и успешно окончање рада. Захваљујући том преносу знања, почела сам да стичем практичне вештине из рачунарске обраде текста, што је омогућило да их касније  применим у новим истраживањима.

Тако је настала идеја о креирању и анализи корпуса текстова песама југословенског рокенрола у оквиру мог мастер рада, и то на обострано задовољство, како ментора и осталих професора, тако и мене, као кандидата за израду тезе. Током прегледа литературе, закључила сам да су многи стручњаци истраживали феномен екс-Ју рока и његов утицај на југословенско друштво из визуре друштвено-хуманистичких наука (социологије, антропологије итд.), али без задирања у рачунарску страну анализе текстова.

Штавише, у оној мери у којој је употреба рачунарских технологија у обради текстова песама са ових простора била занемарена, у тој мери су се бројна истраживања заснивала на имплементацији таквих метода ради анализе страних тексова песама. Почнимо само од моделовања тема (topic modeling) у пекиншкој опери, преко стилометријске анализе текстова песама Битлса, па све до коришћења програма Coh-Metrix i Linguistic Inquiry and Word Count за упоредну анализу текстова песама текстописаца који су извршили самоубиство (нпр. Курт Кобејн) и оних који нису били суицидни (Пол Велер).

А рачунарске анализе југословенских текстова песама – ни у назнакама. Отворио се, дакле, простор за једно крајње узбудљиво истраживање које је са собом носило обиље изазова на истраживачком плану: како анотирати корпус у XML језику за означавање, како исправити “ошишану латиницу тако да „косава“ постане „кошава“, како статистичким методама утврдити да ли је Бијело Дугме сличније Јосипи Лисац или Забрањеном Пушењу, које су преовлађујуће теме у корпусу, итд. Ако бих тражила „преовлађујућу тему“ у целокупном процесу израде мастер рада, она би се могла свести на аутоматизацију метода креирања и обраде текстова.

За крај бих истакла једно занимљиво и често оспоравано виђење рачунарске анализе текста међу традиционалним књижевним критичарима. Наиме, Франко Морети, творац концепта “удаљеног читања” и „иконоборац књижевне критике“, према британском дневном листу Гардијан, у свом есеју „Conjectures on World Literature“ изрекао је једну мисао која гласи да „ми знамо да читамо текстове, али да ли би сада требало да се одучимо од читања“. Заправо, Морети сматра да је немогуће установити дубље везе међу ентитетима (нпр. књижевним јунацима) уобичајеним линеарним читањем. Он се стога залаже за квантитативну анализу великих колекција текстова и њихову визуализацију у виду графова, мапа и дрвећа, што је уједно и део наслова његове чувене монографије. Чини ми се да би овакав приступ истраживању могао без проблема бити забележен у силабусу предмета као што су Програмирање за лингвисте или Анализа и визуализација података.

Стечена знања и на осталим изборним предметима (Савременим рачунарским технологијама, Квантитативном моделирању у друштвеним наукама и Уводу у когнитивну лингвистику) међусобно су се преплитала и постепено проналазила своју примену у току мојих студија и саме израде мастер рада. Ако вас занимају програмирање, базе података, статистика, или, пак, желите да сазнате шта се крије иза концепата “отеловљени ум” или “big data“, на студијском програму Рачунарство у друштвеним наукама можете детаљније проучити сваку од тих области.
Рачунарство у друштвеним наукама

Студијски програм Рачунарство у друштвеним наукама осмишљен је као програм у коме би студенти који су завршили основне академске студије у некој од области друштвених наука (правне науке, економске науке, филозофија, психологија, социологија, демографија…), савладали коришћење савремених рачунарских технологија у друштвеним наукама. Студенти стечена знања могу применити уз коришћење савремених Интернет технологија и сервиса, разних софтверских алата, као и на начин који је обогаћен квантитативним анализама.

Потреба за студијским програмом проистиче из чињенице да је све већа потражња за стручњацима из области друштвених наука који у свом послу интензивно користе савремене технологије. Понуда послова, кретања на тржишту, као и трендови у привреди, друштву, органима државне управе и другим јавним институцијама, недвосмислено указују на ту чињеницу. Студије су акредитоване за извођење на српском и енглеском језику.

Завршетком студија кандидати стичу академски назив Мастер рачунарства у друштвеним наукама.