Аліна Радачынская
- 16.07.2018
- 11171
З дапамогай адкрытых дадзеных можна не толькі зразумець, што фактычна адбываецца навокал, але і нават расследаванні на канапе праводзіць. У Беларусі пошукамі і аналізам адкрытых дадзеных займаецца, напрыклад, суполка оpendata.by. Мы сустрэліся з Алінай Радачынскай, адной з заснавальніц партала і вядомай у Менску data-евангелісткай, каб паразмаўляць пра новую «нафту» сусвету – дадзеныя – і тое, чаму важна, каб яны былі адкрытыя.
оpendata.by – супольнасць людзей з ІТ, навукі, бізнэсу, грамадскіх ініцыятываў і адукацыі, якія разам займаюцца зборам і аналізам адкрытых дадзеных.
Аліна Радачынская – продакт-менеджарка, адна з заснавальніц партала opendata.by, сузаснавальніца фестывалю Watch Docs.
Вытокі
– Паўтара года са свайго журналісцкага мінулага я працавала ў Маскве. Уласна там і пачалася гэтая гісторыя. Тады ў мяне з’явілася дзве жарсці – дакументалістыка і анлайн-навучанне. Адным з першых стаў анлайн-курс па data-журналістыцы. Па вяртанні ў Менск у маім жыцці з’явіўся фестываль дакументальнага кіно Watch Docs і курс інфаграфікі Вадзіма Шмыгава, які я дапамагаю арганізоўваць.
Тады, тры гады таму, я нічога пра адкрытыя дадзеныя не ведала. Сябры і калегі ладзілі хакатон Hack for Future. Яго ідэя была ў тым, каб сабраць людзей з рознымі кампетэнцыямі і ідэямі: журналістаў, экскурсаводаў, аматараў жывёл, архітэктараў – і натхніць іх ствараць разам. На адным з такіх хакатонаў мы і зрабілі opendata.by. Тады ў нас была нейкая колькасць набораў дадзеных, якую хацелася архіваваць. Таксама мы ўжо ведалі пра такую рэч, як партал адкрытых дадзеных. Высветлілі, як ён працуе, і самі зрабілі падобнае.
Data-журналістыка – гэта
– Калі тлумачыш, што такое адкрытыя дадзеныя, часта даводзіцца пачынаць з таго, што такое самі дадзеныя. Калі запытацца адмыслоўцаў у галіне, усе адкажуць на гэтае пытанне крыху па-свойму. Калі я кажу «дадзеныя», то маю на ўвазе пэўны лічбавы субстрат, з якога мы здабываем веды. Гэта можа быць таблічка ў Excel, аўдыя- ці відэафайлы. Але калі мы займаемся Natural language processing, то для нас звычайны тэкст таксама будзе дадзенымі. Карацей, дадзеныя – гэта тое, адкуль мы «дастаем» веды.
Адкрытыя дадзеныя – асобная катэгорыя. Яны адпавядаюць тром паказчыкам: бясплатныя, не абмежаваныя ў выкарыстанні, машыначытальныя. То-бок яны павінны быць у фармаце, які дазволіць лёгка іх апрацоўваць. Найчасцей крыніцай адкрытых дадзеных з’яўляецца дзяржава, бо збор інфармацыі, якім яна займаецца, ужо аплачаны з падаткаў. Але часцяком здараецца, што дадзеныя адкрываюць кампаніі ці навуковыя інстытуцыі. Для кампаній гэта пэўны піяр-ход (як і для дзяржавы), для навукі – частка ідэі пра ўсеагульную даступнасць ведаў. Ці спосаб гэтыя веды абараніць. Калі ў ЗША абралі Трампа, які не верыць у глабальнае пацяпленне, у адкрыты доступ выклалі шмат даследаванняў, датычных экалогіі, – так іх немагчыма знішчыць.
«Памылкі ёсць ва ўсім, што робіць чалавек»
Журналістыка дадзеных найбольш працуе з лічбамі, статыстыкай, тлумачыць іх для шырокай аўдыторыі. Яна выкарыстоўвае іх як крыніцу для матэрыялаў, інфаграфікі, расследаванняў і гэтак далей.
У Беларусі лічбамі займаецца Вадзім Шмыгаў – першы беларускі інфограф. І, напрыклад, Кася Сырамалот, якая даволі доўга рабіла інфаграфіку.
Памылкі ў дадзеных
– Памылкі ёсць ва ўсім, што робіць чалавек. Мой любімы прыклад пра тое, як сямнаццацігадовы брытанскі хлопчык знайшоў памылку ў дадзеных НАСА, калі датчыкі міжнароднай касмічнай станцыі прысылалі няслушныя паказчыкі.
Дзяржава з’яўляецца адной з галоўных крыніц адкрытых дадзеных. Лічыцца, што інфармацыя, якую яна збірае, сабрана на падаткі падаткаплацельшчыкаў. А значыць, яны не мусяць плаціць двойчы. Паступова гэтая ідэя замацавалася як галоўны прынцып «Хартыі адкрытых дадзеных»: дзяржаўныя дадзеныя, акрамя таямніцы і персанальных дадзеных, мусяць публікавацца па змоўчанні. Але, зразумела, яшчэ няма ніводнай краіны, якая рэалізавала б гэты прынцып на сто адсоткаў.
«Дзяржаўныя дадзеныя, акрамя таямніцы і персанальных дадзеных, мусяць публікавацца па змоўчанні»
Калі мы гаворым, што дзяржава павінна публікаваць нейкую частку сваіх дадзеных, мы – апроч розных тэхнічных ці юрыдычных момантаў – мусім памятаць, што недзе сядзіць умоўная Марыя Іванаўна, якая ручкамі забівае лічбы ў Excel-таблічку. Калі ёй кажуць, што гэта трэба апублікаваць недзе, то першае, пра што яна думае, дык гэта пра тое, што ёй прыляціць, калі штосьці будзе не так. І пастараецца пазбегнуць публікацыі. Такі тонкі псіхалагічны момант, ад якога вельмі залежыць развіццё канкрэтнай тэхналогіі.
Чалавек штосьці робіць – ён абавязкова памыляецца. З іншага боку, бонус, які могуць адкрытыя дадзеныя даць, – тысячы вачэй для праверкі дадзеных. Бо калі НАСА не знайшлі памылку, а школьнік знайшоў і дапамог навуцы, то гэта шанец зрабіць сістэму з кожным разам больш ідэальнай. Мая мара – каб у Беларусі не баяліся памылак.
Апроч таго, дадзеныя – гэта дастаткова ўмоўны злепак рэчаіснасці, які не варта пераацэньваць. Гэта як з мапамі. Ёсць мапа, а ёсць тэрыторыя. Гледзячы на дадзеныя, ты можаш заўважыць нешта новае пра жыццё, але не знайсці абсалютную ісціну.
«Бонус, які могуць адкрытыя дадзеныя даць, – тысячы вачэй для праверкі дадзеных»
Па-за межамі Беларусі
– Па-за межамі Беларусі сітуацыя з адкрытымі дадзенымі вельмі розная. Ёсць два асноўныя рэйтынгі, якія вымяраюць сітуацыю ў той ці іншай краіне. І Беларусь аднойчы ўвайшла ў адзін з такіх рэйтынгаў – Open Data Barometer. Аказалася на 93-м месцы са 115-ці. Гэта адбылося ў 2016 годзе, калі дзяржава абвесціла пра стварэнне партала адкрытых дадзеных. На абодвух рэйтынгах на першых месцах звычайна Брытанія. Потым Штаты, таму што там гэтыя працэсы пачаліся раней: яшчэ ў 80-х людзі, якія займаліся мапамі, пачалі казаць, што мапы павінны быць даступнымі.
Калі браць бліжэйшае да нас, то самы актыўны працэс адбываецца ва Украіне – там прынялі «Хартыю» на дзяржаўным узроўні. Таксама гэтае зрабілі і гарады кшталту Вінніцы, дзе на гарадскім узроўні прынялі яе і пачынаюць горда выкарыстоўваць. У іх вельмі шмат актыўнасцяў, звязаных з тэмай. Але цяжка сказаць, у якім гэта зараз стане, бо толькі нядаўна пачалося. То-бок дзесьці можна пахваліць, але дзесьці і пасварыць.
Opendata.by: не калектыў і не каманда
– Opendata – гэта супольнасць, а не арганізацыя, якая сядзіць за кампамі цэлы дзень. У мяне ёсць звычайная праца, як і ў маіх калег. Мы нефармальнае аб’яднанне. У нас няма офіса – толькі фэйсбук-суполка і чацік у тэлеграме. Сярод тых, хто прыходзіць на нашы івэнты, ёсць дэйта-саенцісты, а ёсць тыя, хто можа зрабіць толькі просценькі графік.
Для мяне важна тое, каб людзі, якія працуюць з дадзенымі, былі звязаныя паміж сабой, каб паміж імі быў давер. Каб людзі, якія маюць магчымасць адкрываць дадзеныя, маглі запытацца ў супольнасці, што другому боку патрэбна. У ідэале гэта мусіць працаваць як узаемаабмен: калі хтосьці бачыць памылку ў дадзеных, ён можа напісаць органам і сказаць, што яна ёсць. І органы яе выправяць, а не пакрыўдзяцца.
У нас не сказаць што вельмі добрая камунікацыя з органамі. У нашай практыцы такога не было, каб мы знаходзілі памылку і гаварылі наўпрост выканаўцам. Звычайна мы не ведаем вытокі дадзеных. Але ёсць прыклады беларускіх кампаній, каторыя займаюцца такім «баг-рэпорцінгам». Зараз мы думаем, як палепшыць гэты механізм паведамлення аб памылках.
«Мая мара – каб у Беларусі не баяліся памылак»
Чым займаецца Opendata.by
– На самім сайце мы збіраем архіў дадзеных, з якімі працавалі ці проста нехта перавёў у машыначытальны фармат. Мы ўжо назапасілі двухгадовы архіў заявак 115.бел: па ім можна адсочваць, як працуюць камунальныя службы горада. Іншы вялікі датасэт, які мы збіралі самастойна, – архіў заяў аб продажы машын у розных гарадах Беларусі. Па ім бачна, дзе машыны старэйшыя, а значыць, горш адбіваюцца на якасці паветра.
Доўгі час мы ладзілі лабараторыі адкрытых дадзеных – такія невялічкія хакатоны, на якіх якраз і збіралі дадзеныя, аналізавалі іх, дапамагалі тым, каму не хапала ўласных скілоў. Пасля зразумелі, што ў такім фармаце цяжка рабіць вялікія праекты, зараз намагаемся прыдумаць нешта іншае. Увесну правялі такія лабараторыі ў больш навучальным фармаце для студэнтаў БДУІР – атрымалася натхняльна. З Лятучым універсітэтам запісалі анлайн-курс пра адкрытыя дадзеныя.
Мы стараемся сачыць за тым, як распрацоўваецца дзяржаўны партал адкрытых дадзеных, стараемся па магчымасці дапамагаць. Напрыклад, рабілі даследаванне пра попыт на адкрытыя дадзеныя з боку бізнэсу, якое пасля аддалі распрацоўшчыкам канцэпцыі дзяржаўнага партала. Перыядычна пішам у Міністэрства сувязі і інфарматызацыі, каб дазнацца, як там справы, бо публічнай інфармацыі вельмі мала.
Мы ўдзельнічаем у Belarus IGF – форуме па кіраванні інтэрнэтам. На папярэднім мы рабілі дыскусію пра інфраструктуру адкрытых дадзеных паміж дзяржаўнымі службоўцамі, бізнэсоўцамі і ўмоўным трэцім сектарам. Бо адкрытыя дадзеныя – гэта такая рэч, якая не працуе без звязкі паміж тымі, хто іх пастаўляе, і тымі, хто імі карыстаецца. Калі дзяржава пачынае публікаваць дадзеныя, а імі ніхто не карыстаецца, то яны проста ляжаць недзе на сайце. І грошы, якія былі выдадзеныя на тое, каб іх адкрыць, фактычна марнуюцца.
Насамрэч гэта не нейкая штука для гікаў. Гэта тое, што вакол нас. Калі вы бачыце курс валют – вы карыстаецеся дадзенымі.
«Адкрытыя дадзеныя – гэта такая рэч, якая не працуе без звязкі паміж тымі, хто іх пастаўляе, і тымі, хто імі карыстаецца»
Планы на будучыню
– Мы будзем працягваць збіраць архіў дадзеных на сайце, развіваць адукацыйны кірунак. Увосень будзе серыя майстар-класаў у ECLAB для ўрбаністаў і сацыёлагаў, а таксама Менскі ўрбаністычны форум. Ну і рыхтуемся да IGF.
Бачым, што трэба больш распавядаць пра тое, што мы знаходзім у беларускіх дадзеных, бо пакуль шмат набораў проста ляжыць мёртвым грузам у архівах. У бліжэйшы час мы збіраемся выцягнуць інсайты з гэтых дадзеных і зрабіць публікацыі.
Мы вельмі хочам сабраць рэестр дзяржаўных дадзеных: спісак сайтаў, на якіх можна знайсці дадзеныя, хай і не ў машыначытальным фармаце.
Як прашарыцца ў тэме?
Каб трапіць, напрыклад, у каманду opendata, нічога не патрэбна. Пішаш у суполцы на Facebook: я такі ці такая, умею вось гэта і цікаўлюся гэтым. А там ужо пастараюцца нейкія задачы накідаць.
Для старту можна абраць сабе па душы нешта з безлічы анлайн-курсаў. На Coursera ёсць ад таго, як працаваць з Excel, да нейронных сетак. Апроч таго, ёсць Datacamp, адмыслова для журналістаў – Learno. Па-руску курсы можна знайсці на «Стэпіку». Калі норм з украінскай, то табе на «Праметэус».
Трапіць у Школу аналізу дадзеных ад Яндэкса або магістратуру па дадзеных БДУ.
Даследаваць, чым зараз займаецца «Инфографика.TUT».
Уцяміць, што праца з дадзенымі – гэта космас. У тым сэнсе, што гэта можа быць што заўгодна.
Фота – Таня Капітонава