Большие данные для самых маленьких

data-big-one

Третье тысячелетие принесло новые тренды: глобализация, мультикультурализм, ускорение ритма жизни. Научно-технический прогресс развивается со скоростью геометрической прогрессии. Каждый четвертый человек на земле – пользователь интернета. Он заходит на сайты, совершает операции в сети, вносит личные данные. Неудивительно, что мы все время слышим о больших данных, которые трудно хранить, структурировать и контролировать.

Проблема в том, что многие люди понятия не имеют, что такое большие данные. Это объясняется отсутствием ясности в научных кругах, ведь сколько ученых, столько и мнений.

data-big-1

Как распознать большие данные

Президент Real World Technologies Девид Кантер (David Kanter) утверждает, что большими данные могут называться в том случае, если они превышают объем памяти сервера и весят больше трех терабайт.

Но на самом деле важен не только объем. Существует подход, согласно которому все данные должны соответствовать трем параметрам: иметь достаточный объем, передаваться с определенной скоростью, быть разнообразными. Это так называемая концепция 3V (Volume, Velocity, Variety), которую в 2001 году предложил Дуг Лейни (Doug Laney).

Позже ученые разработали еще несколько параметров, которым должны соответствовать большие данные. Это достоверность, изменчивость, срок действия и другие показатели.

big-data

История вопроса

Впервые о переизбытке данных завил американский библиотекарь Фремонт Райдер (Fremont Rider). В 1944 году был опубликован его труд The Scholar and the Future of the Research Library. В работе ученый отметил, что количество книг в библиотеках американских университетов увеличивается в два раза каждые 16 лет. К примеру, в 2040 году фонд библиотеки Йельского университета будет насчитывать 200 млн книг, для чего понадобится 10 км полок.

В далеком 1880 году в Америке возникли сложности при подсчете данных во врем переписи населения. Чтобы внести информацию в списки, понадобилось 8 лет.

Термин Big data впервые был введен Майклом Коксом (Michael Cox) и Дэвидом Эллсвортом (David Ellsworth) в 1997 году. Ученые сообщили о том, что основной проблемой больших данных является нехватка емкости оперативной памяти, жестких дисков.

Переломным в истории больших данных стал 2003 год – тогда было получено рекордное количество данных. В 2008 году в журнале Nature большие данные охарактеризовали как совокупность методов и инструментов для обработки больших объемов информации. Цель применения этих методов – представление данных в понятном обычному человеку виде.

bigdata1

Заключение

Сегодня за день создается более 2,5 квинтиллиона данных. Информация поступает ото всюду: визуальный контент, социальные сети, любые действия пользователя в интернете.

Современный человек с головой погружен в цифровой мир, где факты сами по себе не имеют никакой ценности. Они нужны человеку только в виде структурированных данных. Вопрос только в том, сможет ли человечество справиться с возрастающим потоком информации. И на сегодняшний день он остается открытым.

Научитесь администрировать сегодня – получите результат завтра! Выбирайте направление и записывайтесь на наши курсы системного администрирования Linux!

Залишити відповідь

Дякуємо, що поділились