вторник, 15 декабря 2015 г.

Книга «Четвертая парадигма» больших данных



obartunov

1. Тысячи лет назад наука была эмпирической.
2. Последние сотни лет наука была теоретической.
3. Последние десятилетия наука была вычислительной.
4. Сегодня - идет исследование данных - e-Наука. Соединение теории, экспериментов и моделирования в компьютерных сетях.

«Этот сборник статей расширяет концепцию новой, 4-ой парадигмы открытий в науке, использующей большой объем данных, предложенную передовым ученым в области теории вычислительных систем Джимом Греем».

Простое требование машинного доступа к данным приводит к появлению новой парадигмы научного познания. Здесь слово "научное" очень важно, оно означает соблюдение принципа науки - принципа воспроизведения научных результатов, который в наше переходное время не соблюдается.

Центром новой парадигмы является семантика межмашинного взаимодействия, все остальное тоже важно, но не так принципиально.


Например, сенсоры LHC регистрируют столкновения, которые записываются на хранители. Поток такой, что требуется записывать 1 петабайт каждую секунду, что пока практически невозможно. Решение достигнуто ценою выбрасывания неинтересных столкновений, скажем, столкновения уже известных частиц "никому не интересны". Это позволило снизить поток информации до 1 гигабайта в секунду.

Современные хранилища научных данных призваны для хранения научных данных, те, уже обработанных сырых данных. Сами сырые данные часто затеряны в дисковых просторах без "прибитой" процедуры обработки, что делает их бесполезными. В Ликской обсерватории мне показали комнату с кучей магнитных лент, про которые никто ничего не знает. На всякий случай их хранят, не выкидывают, но без журнала наблюдений их научная ценность близка к нулю.


Для написания книги Новая парадигма мировоззрения, 4-я итерация, я потратил 30 лет.

Еще раньше, как только я научился читать, я начал читать по 5-10 книг в неделю и уже к концу 1-го класса испортил зрение. К сожалению, читал я бессистемно, просто для собственного удовольствия.

Правда, когда я решил прочитать всего Хемингуэя, мне это быстро надоело.

Уже взрослым пробовал прочитать, наконец, все тома "Войны и Мира" Льва Толстого. Скучно же читать. Не дочитал.

Так что тема Больших данных мне близка, если учесть, что программистом я писал программы, в основном, для обработки Баз Данных. Начиная с Технического задания, разработки самой БД и так далее, по Жизненному циклу программного обеспечения.

Комментариев нет: