Рейтинговые книги
Читем онлайн Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 25 26 27 28 29 30 31 32 33 ... 57

Компании, которые недооценили важность повторного использования данных, усвоили урок на собственном горьком опыте. В начале своей деятельности Amazon заключила сделку с компанией AOL по запуску технологии, лежащей в основе интернет-магазина AOL. Для большинства людей это выглядело как обычная сделка внешнего подряда. «Но что на самом деле интересовало Amazon, так это данные о том, что пользователи ищут и покупают, поскольку это позволило бы повысить эффективность рекомендательной системы компании», — поясняет Андреас Вайгенд, бывший руководитель исследовательских работ в Amazon.[99] Бедняжка AOL так этого и не поняла. Она видела преимущества только с точки зрения первичного использования — продаж, в то время как в Amazon смекнули, что можно извлечь выгоду из вторичного использования данных.

Или возьмем первые шаги Google в области распознавания речи. В 2007 году был запущен голосовой телефонный справочник GOOG-411, который функционировал вплоть до 2010 года. Поисковый гигант не имел своей технологии распознавания речи, поэтому пришлось ее лицензировать. Компания заключила договор с лидером в этой области — компанией Nuance, которая была рада обзавестись таким ценным клиентом. Но Nuance плохо разбиралась в том, что касалось больших данных: в договоре не уточнялось, кто является держателем записей голосового перевода, поэтому Google сохраняла их для себя. Эти данные были необходимы для совершенствования технологии, но также годились для создания новой службы распознавания речи с нуля. На тот момент Nuance воспринимала себя как организацию, которая занимается лицензированием программного обеспечения, а не обработкой данных. Осознав свою ошибку, компания начала заключать сделки с мобильными операторами и производителями мобильных телефонов для внедрения своей службы распознавания речи, что позволило и Nuance собирать данные.[100]

Ценность повторного использования данных — хорошая новость для организаций, которые собирают или имеют в своем распоряжении большие наборы данных, но пока с ними почти не работают (например, обычные компании, которые в основном функционируют вне интернета). Может оказаться, что они сидят на неиспользуемых информационных гейзерах. Некоторые компании, собрав данные и единожды их задействовав (а может, и не сделав этого вовсе), хранили данные лишь из-за низкой стоимости хранения. Ученые прозвали компьютеры с такой старой информацией «гробницами данных». Технологические и веб-компании стоят первыми в очереди по освоению наплыва данных, поскольку собирают огромное количество информации, просто находясь в интернете, и опережают конкурентов в отрасли по ее анализу. При этом все компании остаются в выигрыше. Консультанты McKinsey & Company приводят в пример логистическую компанию (ее название они оставили анонимным). Компания обратила внимание на то, что в процессе доставки товаров она накапливала огромные ряды информации о поставках в глобальном масштабе. Учуяв возможности, она создала специальный отдел по продаже объединенных данных в форме деловых и экономических прогнозов — иными словами, офлайновую версию прошлого бизнеса Google, построенного на поисковых запросах.[101]

Некоторые компании благодаря своему положению в цепочке создания ценности информации накапливают огромное количество данных, даже если не имеют в этом существенной необходимости или не практикуют их повторное использование. Так, например, операторы мобильной связи собирают информацию о местоположении своих абонентов, чтобы маршрутизировать их вызовы. Эти компании видят лишь узкое техническое назначение таких данных. Но их ценность значительно повышается при повторном использовании компаниями, которые распространяют персонализированную рекламу на основе местоположения. Иногда ценность формируют не отдельные точки данных, а их совокупность. Это дает возможность компаниям, таким как AirSage и Sense Networks, продавать информацию о том, где люди собираются по пятничным вечерам или насколько медленно ползут машины в пробках. Такая информация может служить для определения стоимости недвижимости или расценок для рекламных щитов.

Даже самая банальная информация может иметь особое значение, если направить ее в правильное русло. Вернемся к операторам мобильной связи: у них есть записи о том, где и когда телефоны подключались к базовым станциям, включая данные об уровне сигнала. Операторы уже давно используют эти сведения для тонкой настройки производительности своих сетей, решая, где добавить или обновить инфраструктуру. Но данные имеют и много других потенциальных применений. С их помощью производители телефонов могут узнать, например, что влияет на уровень сигнала, чтобы улучшить качество приема сигнала на своих устройствах. Мобильные операторы сталкиваются с большим количеством юридических ограничений, которые, как правило, запрещают повторное использование данных или обмен ими ввиду конфиденциальности — изобретения эпохи малых данных. Во времена больших данных такие ограничения уже неактуальны.

Искусственно созданные данные

Иногда скрытую ценность можно раскрыть, только объединив один набор данных с другим, возможно, совершенно непохожим. По-новому комбинируя данные, можно добиться инновационных открытий, что подтверждает научное исследование, опубликованное в 2011 году. В нем шла речь о том, что мобильные телефоны повышают вероятность развития раковых заболеваний. Учитывая, что в мире насчитывается шесть миллиардов мобильных телефонов — практически по одному на каждого человека, — это очень важный вопрос. Множество исследователей искали подобную связь, но успеху препятствовали слишком маленькая выборка, недостаточная длительность изыскания или анализ только собственных данных, что чревато ошибкой. Тем не менее команда ученых из Датского онкологического общества разработала интересный подход, основанный на ранее собранных данных.[102]

Датская база данных всех абонентов мобильной связи ведет начало с момента появления мобильных телефонов в 1985 году. Исследование охватило тех, кто пользовался мобильным телефоном с 1990 по 2007 год, за исключением корпоративных и других абонентов, чьи социально-экономические данные были недоступны. Получалось 358 403 человека. В Дании также существовал реестр всех онкологических больных, в котором числилось 10 729 человек, страдающих опухолями центральной нервной системы в обозначенный период. Объединив два набора данных, исследователи рассчитывали найти корреляции. Продемонстрируют ли владельцы мобильных телефонов более высокую заболеваемость раком, чем те, у кого их нет? И правда ли, что абоненты, которые дольше пользуются мобильным телефоном, более подвержены раковым заболеваниям?

Несмотря на масштабы исследования, информация не была ни беспорядочной, ни неточной: оба набора данных составлялись с учетом строгих стандартов качества для медицинских и коммерческих целей. Информация собиралась в условиях, исключающих отклонения, несколькими годами ранее и по причинам, которые не имели ничего общего с целью этого исследования. Самое главное, что оно проводилось не на основе выборки, а близко к условию «N = всё»: учитывались почти каждый случай рака и почти каждый пользователь мобильного телефона (что в целом составило 3,8 миллиона человеко-лет владения мобильными телефонами). Благодаря тому что исследование охватывало почти все случаи, ученые могли контролировать подгруппы, например курящих.

В результате не было обнаружено, что увеличение риска развития рака связано с использованием мобильного телефона. Поэтому эти выводы вряд ли произвели фурор в средствах массовой информации, когда данные были опубликованы в британском медицинском журнале BMJ в октябре 2011 года. А вот если бы такая связь всплыла, о ней бы писали в первых полосах газет по всему миру, тем самым ознаменовав триумф методологии «искусственно созданных данных».

При анализе больших данных совокупность важнее отдельных частей, а при перекомпоновке совокупностей нескольких наборов данных получается еще более удачная совокупность. Современные интернет-пользователи знакомы с основными «мэшапами» — службами, которые по-новому объединяют несколько источников данных. Сайт недвижимости Zillow.com накладывает информацию о недвижимости и ценах на карту окрестностей в США, а также обрабатывает наборы данных о последних деловых операциях в районе и характеристиках объектов недвижимости, чтобы спрогнозировать стоимость конкретных домов в определенном районе.

Полученный результат полезен, поскольку наглядное представление данных делает их более понятными. Но это довольно упрощенный пример. В конце концов, не так уж трудно додуматься взять информацию относительно местоположения и наложить ее на карту. С большими данными мы можем пойти гораздо дальше. И датское исследование рака показывает, какие перспективы перед нами открываются.

1 ... 25 26 27 28 29 30 31 32 33 ... 57
На этой странице вы можете бесплатно читать книгу Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер бесплатно.
Похожие на Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер книги

Оставить комментарий