Слоўнікавы запас: BIG DATA

20 лютага 2018

«Беларусский Журнал», Лятучы ўніверсітэт і BlogTV Trixter працягваюць знаёміць вас з «новымі словамі» і тым, што за імі стаіць, у межах нашага сумеснага праекта пад назвай «Слоўнікавы запас». Разам з вядучымі беларускімі інтэлектуаламі, навукоўцамі, экспертамі і практыкамі ў розных галінах мы спрабуем фармаваць тэзаўрус сучаснага чалавека, разбіраючыся з тэхнічнымі, сацыяльнымі, культурнымі інавацыямі, якія прыходзяць у наша жыццё і мяняюць яго.

Тэма, з якой мы пачыналі — блакчэйн. Сёння мы запрашаем вас у свет Big Data, які развіваецца не менш імкліва. The Economist сцвярджае, што сёння галоўная крыніца энергіі — гэта ўжо не нафта, а менавіта дадзеныя. Разбіраемся ў тэме разам з сацыёлагам, метадолагам, каардынатарам праграмы «Лятучы ўніверсітэт» Таццянай Вадалажскай і IT-спецыялістам, заснавальнікам беларускай супольнасці аналітыкаў дадзеных DataTalks Сяргеем Кадамскім.

Што такое Big Data?

“У вузкім сэнсе, гэта адмысловая вобласць ведаў, звязаная з метадамі і падыходамі ў апрацоўцы вялікіх масіваў дадзеных. Але калі паглядзець на гэта шырэй, то Big Data — гэта фактычна новая рэальнасць, або новая эпоха, якая прымушае нас пераасэнсоўваць пытанні грамадскай бяспекі, сацыяльных адносін, права, этыкі, мадэлі вядзення бізнесу і г.д.”

“Насамрэч, гэта даволі проста. Уявіце сабе вашу медыцынскую картку. Яна ў вас ёсць з нараджэння, і розныя лекары запісваюць туды дыягназы, якія вам ставяць, інфармацыю аб кожным вашым звароце, туды ж уклейваюцца вынікі розных аналізаў, флюараграфіі і г.д. Гэта ўсё вядома тым лекарам, якія вас абследуюць. Але вы разумееце, што інфармацыя там абмежаваная, гэта тое, пра што вы відавочна паклапаціліся. Г.зн. вам лекар сказаў, што трэба пайсці і здаць аналіз крыві, вы яго здалі, вынікі ўклееныя ў картку. А вось вялікія дадзеныя — гэта пра тое, што ўсе дадзеныя пра ваша здароўе збіраюцца ўвесь час, кожную секунду. Прычым гэта не толькі аналіз крыві ці яшчэ чагосьці, але і хуткасць вашага сэрцабіцця, дыхання і г.д. І, у прынцыпе, гэта інфармацыя ніяк не прывязана да таго, ці думаеце вы пра тое, што яе трэба захоўваць. І ўявіце, што лекар можа зазірнуць у гісторыю вашыга жыцця і паглядзець, што з вамі адбывалася, напрыклад, тыдзень таму. Відавочна, што з дапамогай гэтых дадзеных можна значна больш эфектыўна ставіць дыягназ.

Дык вось, вялікія дадзеныя — гэта прынцыпова новы спосаб працы з інфармацыяй. Сам тэрмін стаў папулярны каля пяці гадоў таму, фактычна ён азначае магчымасць збіраць, захоўваць, аналізаваць значна больш вялікія аб’ёмы разнастайных дадзеных, чым гэта было магчыма раней”.

Якія галоўныя характарыстыкі Big Data, і ці мяняе эпоха «вялікіх дадзеных» самі дадзеныя, нашы ўяўленні пра іх?

“Насамрэч, характарыстыкі вялікіх дадзеных — гэта дыскусійнае пытанне. Усё залежыць ад сферы ўжывання. Мне падабаецца распаўсюджанае апісанне Big Data праз тры англійскія літары “V”: “Velocity”, “Variety” і “Volume”, г.зн. «хуткасць», «разнастайнасць» і «аб’ём». Прычым я «аб’ём» стаўлю на апошняе месца, хоць мы і гаворым пра тэрмін «вялікія дадзеныя». «Хуткасць» для мяне больш важная, у першую чаргу таму, што ўсё паскараецца, і рашэнні цяпер трэба прымаць вельмі хутка. Я б дапоўніў гэтыя характарыстыкі яшчэ двума: «насычаныя дадзеныя» і «чыстыя дадзеныя». Што я маю на ўвазе пад «насычанымі»: вельмі карысна аб’ядноўваць розныя аб’ёмы дадзеных. З таго прыкладу, які я прыводзіў пра медыцынскую картку — калі ў вас ёсць дадзеныя пра стан вашага цела, нядрэнна было б іх аб’яднаць з дадзенымі пра тое, дзе вы знаходзіліся, што вы рабілі, што вы перажывалі, таму што такім чынам можна правесці значна больш комплексны аналіз. А «чыстыя дадзеныя» — гэта таксама вельмі важнае пытанне, таму што чым больш становіцца чаго-небудзь, тым складаней кантраляваць, а што ж адбываецца «ўнутры». Кампаніі ўжо цяпер часта пакутуюць ад таго, што дадзеныя бываюць няякасныя, у іх сустракаюцца памылкі з-за таго, што алгарытмы, якія ў іх выкарыстоўваюцца, вельмі складаныя для аналізу. Гэтыя памылкі могуць прывесці да негатыўных вынікаў, часам нават трагічных”.

“Калі казаць пра тое, як эпоха Big Data змяняе самі дадзеныя, то першае, што трэба адзначыць — што яны сталі больш разнастайнымі, г.зн. мы сталі мець магчымасць працаваць з рознымі дадзенымі: сумяшчаць іх, карэляваць, складваць мадэлі, узаемадзейнічаць з імі. І другое — гэта тое, што наогул свет дадзеных стаў цікавы і важны для куды больш шырокага кола людзей. Калі раней гэта была фактычна акадэмічная дысцыпліна, то сёння гэта частка рэальнасці кожнага чалавека”.

Адкуль у свеце раптам узялося столькі дадзеных, з якіх крыніц збіраюцца «вялікія дадзеныя»?

“Дадзеных сапраўды вельмі шмат, па статыстыцы, аб’ём лічбавай інфармацыі зараз падвойваецца кожныя васямнаццаць месяцаў, то бок кожныя паўтары гады. А крыніцы вельмі простыя. Практычна ў кожнага чалавека на зямлі ёсць тэлефон, шмат хто пачаў насіць, да прыкладу, фітнес-бранзалет. Гэта інфармацыя з фотаапаратаў, паўгады таму казалі, што ў 2017-м годзе ў свеце будзе зроблены адзін мільярд дзвесце мільёнаў тысяч фотаздымкаў, і асноўная маса — на тэлефоны. Гэта таксама інфармацыя, таксама дадзеныя, якія папаўняюць нечы велізарны масіў. Шмат дадзеных збіраюць розныя індустрыі: тая ж медыцына, здабыча выкапняў, транспарт — усё, што заўгодна. Мы ўсе вырабляем дадзеныя. І фактычна новая парадыгма ў тым, што мы маем магчымасць іх захоўваць, не задумваючыся пра тое, што мы будзем аналізаваць, а што не”.

“Трэба разумець, што, па-першае, усе старыя дадзеныя, якія збіраліся раней, але ў вузкім маштабе, цяпер «жывуць» па-іншаму. Напрыклад, медыцынскія дадзеныя, усё, што тычыцца разнастайных анкет, розных устаноў. Раней гэтыя дадзеныя выкарыстоўваліся для кантролю і рэгулявання, г.зн. у досыць вузкім фармаце. Як толькі мы перайшлі ў лічбавую эпоху, усе «старыя звесткі» сталі збірацца хутчэй, і з’явілася магчымасць іх акумуляваць. У выніку ў нас з’явіліся вялікія масівы дадзеных, з якіх можна атрымліваць якасна іншую інфармацыю. Ужо не проста для кантролю, колькі разоў чалавек прайшоў ці не прайшоў флюараграфію, а для аналізу тэндэнцый, якія ёсць у краіне, у свеце і г.д. Яшчэ адна крыніца — гэта тое, што многія бытавыя прыборы, элементы нашага штодзённага атачэння сёння абсталяваныя вялікай колькасцю зборшчыкаў дадзеных (сэнсараў, вымяральнікаў і г.д.). Мы заходзім у любую ўстанову ці садзімся ў сучасную машыну, а яна абсталявана сэнсарамі, якія атрымліваюць інфармацыю, каб прымаць рашэнні, то бок дапамагаюць нам жыць. Але ў той жа час — збіраюць тыя самыя вялікія дадзеныя, якія можна выкарыстоўваць і ў іншых мэтах”.

Якія прынцыпова новыя магчымасці нясуць Big Data, і хто імі карыстаецца ў сучасным свеце?

“Магчымасцей шмат, і гэта глабальныя магчымасці. У першую чаргу імі карыстаюцца тыя, каму гэта выгадна з камерцыйнага пункту гледжання. Г.зн. фінансавыя кампаніі, банкі, тыя, хто гандлюе на біржах, кампаніі, якія займаюцца продажамі — усе тыя сферы, дзе ўкараненне новых тэхналогій прыводзіць да значнага і досыць хуткага росту даходу кампаніі. Выкарыстанне дадзеных стала папулярна ў апошні час у медыцыне. Ёсць такі даволі экстрэмальны прыклад: існуе шэраг суперкамп’ютараў у ЗША, якія выкарыстоўваюцца для пастаноўкі дыягназаў. І ні для каго ўжо ні сакрэт, што гэтыя дыягназы ставяцца з значна большай дакладнасцю, чым ставяць іх лекары, эксперты альбо нават кансіліумы. З цікавых прыкладаў: нядаўна штучны інтэлект, які быў натрэніраваны не толькі на гульнях прафесіяналаў у Го (гэта такая кітайская гульня), але і на гульнях з самім сабой, перайграў лепшага гульца ў Го ў свеце. Калі ў 1997-м годзе Deep Blue перайграў Гары Каспарава, гэта было значным крокам, з пункту гледжання развіцця штучнага інтэлекту. Але многія скептыкі доўга сумняваліся ў тым, што камп’ютар можа перайграць чалавека ў го, таму што гэта прынцыпова іншая гульня, яна не паддаецца якім-небудзь пралікам. Але гэта адбылося, і адбылося на 10 гадоў раней, чым прагназавалася. Таму практычна ўсе індустрыі, дзе ёсць інфармацыя, дзе ёсць дадзеныя, могуць атрымаць які-небудзь вынік. Ёсць шэраг беларускіх стартапаў, якія на базе вялікіх дадзеных дапамагаюць, напрыклад, вытворцам сачыць за якасцю работы абсталявання, проста счытваючы з вельмі высокай частатой гукі, якія выдаюць станкі, і выяўляючы нейкія дэфекты да таго, як станок выйшаў з ладу, спынілася лінія або інжынеры нешта западозрылі.

Калі мы гаворым пра сучасныя кампаніі, стартапы, сферу IT, то наогул цяжка сёння ўявіць кампанію, якая не грунтуецца на вялікіх дадзеных. Таму што калі мы гаворым аб стварэнні нейкай карысці, то абавязкова ёсць тыя, хто карыстаецца нашым прадуктам, а значыць, і інфармацыяй аб гэтых карыстальніках. Працаваць з гэтай інфармацыяй, персаніфікаваць прапановы, ведаць пра тое, чаго хочуць вашыя карыстальнікі, — не агульным кагалам, а персанальна, — гэта вельмі важна для любога бізнесу”.

Што мяняецца з распаўсюджваннем Big Data ў розных галінах: сацыяльных адносінах, адукацыі, навуцы?

“Калі казаць пра тое, як і што прыўносяць вялікія дадзеныя ў наша жыццё, я б адзначыла чатыры важныя змены. Першая звязана з вобласцю права. На сёння пытанне права, прыватнасці пры зборы і выкарыстанні дадзеных — гэта, бадай, першае пытанне, якое ўзнікае, якое на сённяшні дзень не вырашана і патрабуе ўстанаўлення новых адносін. Сёння любы заход у інтэрнэт або праходжанне па вуліцы міма камер сачэння — гэта момант, калі мы «аддаем» свае дадзеныя і сваю прыватнасць. Што з гэтым рабіць — зусім незразумела. Правіл рэгулявання ў гэтай сферы існуе не так шмат, яна патрабуе новых рашэнняў.

Другі важны момант — гэта тое, што вялікія дадзеныя даюць магутны штуршок для развіцця эпохі спажывання, якая ператвараецца ў эпоху «чалавекаспажывання», таму што адна з найважнейшых абласцей, дзе выкарыстоўваюцца вялікія дадзеныя — гэта бізнес: пабудова мадэлей, прагназаванне, прапанова новых тавараў. І мы бачым, з якой хуткасцю павялічваецца гэта прапанова і наколькі больш мы ўцягваемся ў новае спажыванне, пабудаванае менавіта на аналізе вялікіх дадзеных.

Яшчэ адна важная вобласць — гэта тое, што вялікія дадзеныя мяняюць наша ўяўленне пра свет. Бо, фактычна, што робіць аналіз вялікіх дадзеных: з хаосу, вялікай колькасці рухаў нашага цела, нашых дзеянняў, пакупак, поглядаў і г.д. мы можам скласці карціну паводзін чалавека, паводзін вялікіх мас людзей. Гэта вельмі моцна паглыбляе наш погляд, дае новыя веды пра рэчы, якія былі да таго схаваныя і якія можна выявіць праз узаемадзеянне розных відаў дадзеных.

І апошні момант, які важна адзначыць — гэта будучыя змены ў вобласці ўлады. Таму што валоданне дадзенымі, валоданне інфармацыяй, выкарыстанне інфармацыі — гэта новая вобласць ажыццяўлення ўлады”.

Чым нам гэта пагражае? І якія патрабаванні, выклікі Big Data нясуць для чалавека, для грамадства, для дзяржавы, для чалавецтва як такога?

“Рызыкі ў вялікіх дадзеных ёсць, і яны значна вышэй, чым мы, абывацелі, можам сабе ўявіць. Ёсць вельмі цікавы вучоны, Яўген Марозаў. Ён беларус, хоць ужо шмат гадоў жыве ў ЗША, цяпер ён, наколькі мне вядома, запрошаны вучоны у Стэндфардскім універсітэце. Ён вывучае ўплыў тэхналогій на палітычнае і сацыяльнае жыццё. Дык вось, ён кажа пра тое, што сучасныя тэхналогіі, звязаныя з вялікімі дадзенымі, вядома, палягчаюць жыццё, але, з другога боку, аддаляюць грамадства ад магчымасці прымаць рашэнні, перадаючы бразды праўлення кампаніям з Крамянёвай даліны.

Ну і, вядома, вялікія дадзеныя ў першую чаргу выкарыстоўваюцца камерцыйнымі кампаніямі, і грамадству значна складаней іх кантраляваць, чым дзяржаву. Напрыклад, такіх монстраў, як Google, якія ведаюць пра вас вельмі шмат. Яны ведаюць, што вы шукаеце, калі вы захварэлі ці калі рыхтуецеся да вяселля, яны чытаюць вашу пошту і ведаюць усё, што вы пішаце сваім сябрам, бачаць каляндар — карацей, ведаюць вельмі шмат. І іх практычна немагчыма кантраляваць. Хутка ў Еўропе ўводзіцца законапраект, які пачне дзейнічаць у траўні 2018-га года, і дазволіць карыстальнікам кантраляваць свае персанальныя дадзеныя. Я думаю, што еўрапейцы не проста так задумаліся пра гэта”.

“Нягледзячы на ўвесь аптымізм і веру ў новы патэнцыял, які нясуць з сабой вялікія дадзеныя, яны нясуць з сабой і шмат пытанняў, праблем, якія неабходна вырашаць. Першае і досыць відавочнае — гэта як раз тое, што гэта фантастычны ўзровень новай празрыстасці. І гэта пытанне не толькі прававога рэгулявання, але і наогул новай этыкі, новых чалавечых адносін: што мы гатовыя адкрываць адзін аднаму, што не гатовыя, як нам адзін з адным узаемадзейнічаць.

Яшчэ адзін важны момант — ілюзія веды. Адэпты вялікіх дадзеных паўтараюць, што «дадзеныя кажуць самі за сябе». Мы атрымліваем новыя мадэлі, мы атрымліваем новую веду і забываемся, што гэта веда не сама па сабе з’явілася, не з’яўляецца прамым адлюстраваннем рэальнасці. Гэта веданне, якое кімсьці сабрана, прааналізавана, у ім адпачатку закладзена нейкая карціна свету. Вельмі часта мы пра гэта забываемся, і нам здаецца, што мы маем справу з нейкай натуральнай ведай. І гэта ілюзія памяншае нашу здольнасць кіравання сваім светам і сваімі рашэннямі.

Яшчэ адна праблема, якая ўзнікае ў сувязі з вялікімі дадзенымі — гэта тое, што тэхнічнае, тэхналагічнае развіццё, развіццё магчымасцей аналізу дадзеных ідзе значна больш хуткімі тэмпамі, чым наша здольнасць да інтэрпрэтацыі. Вялікую ролю тут адыгрываюць магчымасці візуалізацыі, якія імкліва развіваюцца. Калі мы схопліваем нейкую новую карціну, якую даюць вялікія дадзеныя, але нам не хапае часу, здольнасці, кампетэнцый разабрацца і праінтэрпрэтаваць тое, што мы атрымліваем. Гэта «запазненне» чалавечай функцыі інтэрпрэтацыі, разумення, абмеркавання, таксама нясе некаторую небяспеку таму, каб быць гаспадарамі ўласных рашэнняў і ўласнага погляду на жыццё.

І гэта звязана з выклікам чалавечым кампетэнцыям і функцыянальнай пісьменнасці. Груба кажучы, што павінен умець звычайны чалавек — не спецыяліст, а звычайны чалавек, — жывучы ў свеце вялікіх дадзеных? Фактычна, ён павінен быць у стане зразумець, дзе і як адбываецца збор дадзеных, дзе ён іх «аддае». Ён павінен разумець, як адбываецца аналіз дадзеных, ён павінен бачыць гэта ў прапанаваных яму рашэннях. На сённяшні дзень, думаю, большасць чалавецтва не гатова да такога свету, і гэта ставіць новыя задачы, у першую чаргу, для адукацыі”.

Калі трохі пафантазіраваць, то якая будучыня ў BigData? Якім будзе свет у эпоху перамогі вялікіх дадзеных?

“Я думаю, што ў эпоху вялікіх дадзеных людзі будуць значна здаравей, таму што пранікненне іх у медыцыну ўжо беспрэцэдэнтнае, мы пачнем пазнаваць пра свае хваробы як мага раней і мець магчымасць іх лячыць як мага больш эфектыўна. Камп’ютары, з выкарыстаннем вялікіх дадзеных і штучнага інтэлекту, шмат у чым заменяць нейкую руцінную, нецікавую для чалавека працу, таму ў нас будзе больш магчымасцей займацца творчасцю. Пытанне — ці здольнае будзе чалавецтва скарыстацца гэтым шанцам. Ёсць добрая прымаўка пра тое, што шэсцьдзесят гадоў таму мы запускалі людзей на Месяц, а цяпер запускаем птушак у свіней. Гэта жарт пра Angry Birds, але ён даволі сумны. Магчыма, вы не чакалі гэта пачуць ад мяне, улічваючы, што я працую ў кампаніі, якая стварае камп’ютарныя гульні, але чалавецтву ёсць чым займацца і для чаго ўжываць навуку, акрамя забаў і прапальвання часу.

Але, у цэлым, я вельмі пазітыўна гляджу на тэхналагічныя змены, якія прыходзяць у наш свет апошнія гадоў дваццаць. З майго пункту гледжання, мы жывем у вельмі цікавы час, які сапраўды паскорыўся, але я лічу, што рухаецца ўсё кудысьці ў светлую будучыню. Трэба толькі ўмець кантраляваць працэс і задумвацца, ці не занадта шмат рашэнняў мы аддаем камп’ютару”.

ЛЯТУЧЫ ЎНІВЕРСІТЭТ — гэта некамерцыйная ініцыятыва, дзе любы жадаючы можа навучацца бясплатна.
Але гэтага ўсяго не было б без падтрымкі неабыякавых.
Напішыце каментар