Шрифт:
Интервал:
Закладка:
В 2000 году новоиспеченный выпускник колледжа 22-летний Луис фон Ан загорелся идеей решить эту проблему: нужно заставить регистрирующегося доказать, что он человек. Луис нашел то, что легко давалось людям, но представляло трудности для компьютеров: опознать в процессе регистрации искаженные, трудно читаемые буквы. Люди смогут расшифровать их и ввести правильный текст в считаные секунды, но компьютер будет поставлен в тупик. Компания Yahoo реализовала эту идею и стремительно сократила атаки спам-ботов. Фон Ан назвал свое творение Captcha (англ. Completely Automated Public Turing Test to Tell Computers and Humans Apart — «полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей»). Пять лет спустя около 200 миллионов Captcha стали вводиться ежедневно.
Это принесло Луису фон Анну, выходцу из гватемальской семьи, которая владела кондитерской фабрикой, широкую известность и работу преподавателя компьютерных наук в Университете Карнеги—Меллон, после того как ему была присвоена степень доктора философии. Благодаря своему изобретению в возрасте 27 лет он получил одну из престижных премий Фонда Макартуров[93] за «гениальность» в размере 500 тысяч долларов. Когда Луис понял, что каждый день миллионы людей тратили впустую около десяти секунд своего времени на ввод раздражающих букв и при этом огромное количество получаемой информации попросту выбрасывалось, он усомнился в гениальности своего изобретения.[94]
Луис фон Ан искал способы более продуктивного применения человеческой вычислительной мощности. В итоге был создан тест-преемник с подобающим названием ReCaptcha. Теперь, вместо того чтобы вводить случайные буквы, люди набирают два слова из проектов по сканированию текстов, которые не удалось распознать с помощью компьютерной программы оптического распознавания символов. Одно слово подтверждает, что его уже вводили другие пользователи (и, следовательно, является сигналом того, что пользователь — человек), а другое — новое слово, которое нужно уточнить. Чтобы гарантировать точность, система отображает одно и то же случайное слово до тех пор, пока примерно пять разных пользователей не введут его без ошибок, и только тогда слово считается правильным. Таким образом, данные имеют как основное назначение (доказать, что пользователь является человеком), так и второстепенное — расшифровать непонятные слова из оцифрованных текстов. Система ReCaptcha оказалась настолько полезной, что в 2009 году компания Google решила внедрить ее в свой проект сканирования книг.
Выгода от системы огромна, если учесть, сколько нужно людей для выполнения такой работы. Более 200 миллионов ReCaptcha вводятся ежедневно. Примерно 10 секунд, затрачиваемых на эту операцию, — это в общей сумме около полумиллиона часов в день. Минимальная заработная плата в США в 2012 году составляла 7,25 доллара в час. Если бы для уточнения слов, которые компьютер не мог понять, пришлось обратиться на рынок труда, это обошлось бы примерно в 35 миллионов долларов в день, или более чем 1 миллиард долларов в год. Но Луис фон Ан разработал систему, которая делает это, по сути, бесплатно.
История ReCaptcha подчеркивает, насколько важны повторные данные, особенно если это большие данные. В эпоху цифровых технологий мы осознали роль данных в поддержке операций, и нередко они сами становились товаром. В мире больших данных все снова меняется. Акцент переносится на потенциальное применение данных в будущем. Этот процесс влечет за собой далеко идущие последствия. Он влияет на то, как компании оценивают данные, имеющиеся в их распоряжении, и кому предоставляют к ним доступ. Он позволяет компаниям (а может быть, и вынуждает их) менять свои бизнес-модели, а также меняет отношение организаций к данным и способы их использования.
Информация всегда была необходима для рыночных сделок. Данные дают возможность проводить ценовые исследования, а те — определить объемы производства. Кроме того, на рынках давно торгуют определенными видами информации. Примеры тому — книги, статьи, музыка, фильмы, а также финансовая информация (такая как цены на акции). В последние несколько десятилетий подобная информация была объединена понятием личных данных. Специализированные брокеры данных в США, такие как Acxiom, Experian и Equifax, запрашивают кругленькие суммы за всеобъемлющие досье личной информации на сотни миллионов пользователей. С появлением Facebook, Twitter, LinkedIn, Foursquare и других платформ социальных сетей наши личные связи, мнения, предпочтения и примерный распорядок дня пополнили и без того огромный пул личной информации, уже имеющейся о каждом из нас.
Хотя ценность данных уже давно не вызывает сомнений, прежде они воспринимались как дополнение к основной коммерческой деятельности или как довольно ограниченные категории интеллектуальной собственности и личной информации. Но в эпоху больших данных все данные без исключения будут рассматриваться как ценные сами по себе.
Говоря «все данные», мы имеем в виду даже самые сырые, самые, казалось бы, обыденные отрывки информации. Это могут быть показатели датчика температуры на заводском механизме. Или поток координат GPS в режиме реального времени, показатели акселерометра и уровень топлива в автомобиле — или в целом автопарке из 60 000 единиц. Или миллиарды старых поисковых запросов, или цены на все авиабилеты по всем рейсам коммерческих авиакомпаний США за прошедшие годы.
До недавнего времени не существовало простого способа сбора, хранения и анализа таких данных, что значительно ограничивало возможность извлечь из них потенциальную ценность. В знаменитом примере Адама Смита[95] производителю булавок, с которым он обсуждал разделение труда в ХVIII веке, потребовались бы наблюдатели, постоянно присматривающие за сотрудниками, а также проведение измерений и подсчет выпущенной продукции с помощью бумаги и пера. Даже измерение времени было бы затруднительным, учитывая, что надежные часы в то время были редкостью.[96] Ограничения технической среды сформировали взгляды классических экономистов на устройство экономики — то, о чем они едва ли имели представление, так же как рыба не знает, что она мокрая. Поэтому, рассматривая факторы производства (земля, труд и капитал), они, как правило, упускали из виду роль информации. Хотя за последние два столетия стоимость сбора, хранения и использования данных успела снизиться, до недавних пор это по-прежнему оставалось относительно дорогим удовольствием.
Характерное отличие нашего времени состоит в том, что большинство ограничений, присущих сбору данных, исчезли. Технологии достигли того уровня, когда получение и запись огромных объемов данных стали достаточно доступными. Данные можно собрать пассивно, без особых усилий со стороны тех, о ком ведется запись, и даже без их ведома. А поскольку стоимость хранения значительно упала, оправдать хранение данных проще, чем удалить их. В таких условиях к вашим услугам намного больше данных и по более низким ценам, чем когда-либо. За последние 50 лет стоимость цифрового хранения урезалась вдвое каждые два года, в то время как плотность хранимых данных увеличивалась в 50 миллионов раз.[97] В свете информационных компаний, таких как Farecast или Google, где на одном конце цифровой линии сборки поступают сырые факты, а на другом выходит обработанная информация, данные начинают восприниматься как новый фактор производства.
Непосредственная ценность больших данных очевидна тем, кто их собирает. По сути, сбор данных производится с конкретной целью. Магазины собирают данные о продажах для надлежащего финансового учета. Заводы контролируют выпуск продукции, чтобы обеспечить ее соответствие стандартам качества. Сайты регистрируют все действия пользователей, вплоть до области перемещения мыши, чтобы проанализировать и оптимизировать контент, предоставленный посетителям. Первичное использование данных оправдывает сбор и обработку информации. Записывая информацию не только о книгах, которые покупают клиенты, но и о веб-страницах, которые они посещают, компания Amazon знает, что данные послужат для формирования персонализированных рекомендаций клиентам. Таким же образом Facebook отслеживает обновления статуса и пометки «Нравится» пользователей, чтобы подобрать подходящие рекламные объявления для показа на своем сайте с целью получения дохода.
В отличие от материальных объектов (употребляемой пищи, горящей свечи и пр.), ценность данных не уменьшается по мере их потребления. Данные можно обрабатывать снова и снова. Они представляют собой то, что экономисты называют «неконкурирующим» товаром. Им могут пользоваться несколько человек одновременно без ущерба друг для друга. К тому же, в отличие от материальных благ, информация не изнашивается по мере употребления. Amazon с помощью данных о прошлых операциях формирует рекомендации для своих клиентов и делает это неоднократно не только для тех клиентов, от которых получены данные, но и для многих других.
- Фреймы для представления знаний - Марвин Минский - Прочая околокомпьтерная литература
- Больше денег: что такое Ethereum и как блокчейн меняет мир - Виталий Дмитриевич Бутерин - Прочая околокомпьтерная литература / Публицистика
- Руководство по компьютерной безопасности и защите информации для Больших Боссов - Карл Шкафиц - Прочая околокомпьтерная литература
- Цифровой журнал «Компьютерра» № 195 - Коллектив Авторов - Прочая околокомпьтерная литература
- Шифровальщики. Как реагировать на атаки с использованием программ-вымогателей - Олег Скулкин - Прочая околокомпьтерная литература
- Третья мировая война. Какой она будет - Ричард Кларк - Прочая околокомпьтерная литература
- Цифровой журнал «Компьютерра» № 164 - Коллектив Авторов - Прочая околокомпьтерная литература
- Цифровой журнал «Компьютерра» № 162 - Коллектив Авторов - Прочая околокомпьтерная литература
- Компьютерра PDA N54 (04.09.2010-10.09.2010) - Компьютерра - Прочая околокомпьтерная литература
- Компьютер + TV: телевидение на ПК - Виктор Гольцман - Прочая околокомпьтерная литература