Большие данные для самых маленьких

Третье тысячелетие принесло новые тренды: глобализация, мультикультурализм, ускорение ритма жизни. Научно-технический прогресс развивается со скоростью геометрической прогрессии. Каждый четвертый человек на земле – пользователь интернета. Он заходит на сайты, совершает операции в сети, вносит личные данные. Неудивительно, что мы все время слышим о больших данных, которые трудно хранить, структурировать и контролировать.
Проблема в том, что многие люди понятия не имеют, что такое большие данные. Это объясняется отсутствием ясности в научных кругах, ведь сколько ученых, столько и мнений.
Как распознать большие данные
Президент Real World Technologies Девид Кантер (David Kanter) утверждает, что большими данные могут называться в том случае, если они превышают объем памяти сервера и весят больше трех терабайт.
Но на самом деле важен не только объем. Существует подход, согласно которому все данные должны соответствовать трем параметрам: иметь достаточный объем, передаваться с определенной скоростью, быть разнообразными. Это так называемая концепция 3V (Volume, Velocity, Variety), которую в 2001 году предложил Дуг Лейни (Doug Laney).
Позже ученые разработали еще несколько параметров, которым должны соответствовать большие данные. Это достоверность, изменчивость, срок действия и другие показатели.
История вопроса
Впервые о переизбытке данных завил американский библиотекарь Фремонт Райдер (Fremont Rider). В 1944 году был опубликован его труд The Scholar and the Future of the Research Library. В работе ученый отметил, что количество книг в библиотеках американских университетов увеличивается в два раза каждые 16 лет. К примеру, в 2040 году фонд библиотеки Йельского университета будет насчитывать 200 млн книг, для чего понадобится 10 км полок.
В далеком 1880 году в Америке возникли сложности при подсчете данных во врем переписи населения. Чтобы внести информацию в списки, понадобилось 8 лет.
Термин Big data впервые был введен Майклом Коксом (Michael Cox) и Дэвидом Эллсвортом (David Ellsworth) в 1997 году. Ученые сообщили о том, что основной проблемой больших данных является нехватка емкости оперативной памяти, жестких дисков.
Переломным в истории больших данных стал 2003 год – тогда было получено рекордное количество данных. В 2008 году в журнале Nature большие данные охарактеризовали как совокупность методов и инструментов для обработки больших объемов информации. Цель применения этих методов – представление данных в понятном обычному человеку виде.
Заключение
Сегодня за день создается более 2,5 квинтиллиона данных. Информация поступает ото всюду: визуальный контент, социальные сети, любые действия пользователя в интернете.
Современный человек с головой погружен в цифровой мир, где факты сами по себе не имеют никакой ценности. Они нужны человеку только в виде структурированных данных. Вопрос только в том, сможет ли человечество справиться с возрастающим потоком информации. И на сегодняшний день он остается открытым.
Научитесь администрировать сегодня – получите результат завтра! Выбирайте направление и записывайтесь на наши курсы системного администрирования Linux!