mamlas (mamlas) wrote in eto_fake,
mamlas
mamlas
eto_fake

Categories:

Каждое действие порождает информацию...

Ещё интернет будущего, а также Интернет и информация здесь и здесь

Управление большими массивами данных
Специалист в компьютерных науках Кьянг Ку о датамайнинге, системах «Твиттера» и «интернете вещей» / апрель, 2015

Чем занимается наука о данных? Как за последние десять лет изменился способ входа в интернет? Как можно организовать большие массивы данных? На эти и другие вопросы отвечает доцент Университета Иннополис Кьянг Ку. ©

Ещё интернет-технологии, в т.ч. Интернет вещей


Кьянг Ку — PhD in Computer Science, доцент Университета Иннополис

— Я в основном занимаюсь наукой о данных, в частности обработкой крупных массивов данных и датамайнингом. Прежде чем рассказать о своих конкретных исследованиях, я бы хотел поговорить о контексте науки о данных. Нам сложно представить, что на протяжении жизни почти любое наше действие создает данные. От этого растут не только количество и объем данных, но также их сложность.

Управление большими массивами данных — Кьянг Ку

Перевод: Семен Гальцев, озвучка: Сергей Васильев

Данные могут обладать многими известными или неизвестными свойствами. Например, возьмем действующую городскую дорогу. Все участки дороги известны в данный момент, потому что они уже существуют. Но дорожную обстановку на участках дороги очень сложно предсказать, даже имея все исторические данные, потому что на дорожную обстановку может влиять масса явных и неявных факторов. Кроме того, между объектами в массиве данных могут быть внутренние связи. Например, в процессе принятия решения мы никогда ничего не решаем только собственным умом. Мы часто учитываем взгляды друзей, коллег, родных или экспертов. Потому что наша жизнь — это сеть социальных связей.

Постоянно растущие объемы массивов данных, а также сложность данных очень сильно осложняют процесс обработки и понимание данных. Наука о данных занимается извлечением знаний и значимой информации из крупных и сложных массивов данных. Извлечение информации выводит скрытые закономерности, спрятанные в данных, и позволяет лучше понимать данные. В этом значимость науки о данных. Она соединяет знания с реальностью. Она преобразует онлайновые знания в офлайновые. Она меняет нашу жизнь, стратегии бизнеса, подход к выбору и помогает другим наукам, технологии и социологическим исследованиям.

Я приведу два примера. Первый касается пользования сетью с учетом местоположения. Дело в том, что за последние десять лет мы стали иначе выходить в сеть: сейчас мы с большей вероятностью заходим в интернет с мобильного устройства. Рубеж пришелся на 2008 год. Именно тогда число выходов в сеть с мобильных устройств обогнало персональные компьютеры. Это очень значимая тенденция, особенно с 2007 года, когда вышел первый iPhone.

Важная черта смартфонов и мобильных устройств — это их геопозиционный потенциал. Благодаря ему нам легко связать свое местоположение и веб-контент. Это значительно меняет веб-поиск. К примеру, можно вести поиск с учетом своего местоположения. Можно найти гостиницу или магазин с учетом своего положения и предпочтений вместо привычного поиска лишь по ключевым словам. Но это создает конкуренцию на рынке мобильных устройств. Налицо множество ограничений — например, вычислительная мощность, хранение данных и аккумуляторы. Поэтому нужны эффективные и разумные нормы конкуренции.

Второй пример — это крупномасштабный графмайнинг. «Твиттер» — отличный пример массивной динамической диаграммы. У «Твиттера» ежемесячно более 284 миллионов активных пользователей. Они размещают более 500 миллионов твитов в день. Отношения и общение между пользователями создают массивные динамические диаграммы, но понять эту диаграмму очень сложно. Задумайтесь: сложно не только понять, но даже визуализировать такую диаграмму. Поэтому в своей работе я предлагаю сжать диаграмму. Это позволит выработать компактные и точные сводки данных, чтобы данные было проще понимать и обрабатывать. Думаю, я смогу показать вам примеры анализа данных в системах «Твиттера».

Задача одного из моих исследований — понять динамику пользователей в системах «Твиттера», то есть как информация распространяется в системах «Твиттера».

А поскольку данные крайне динамичны и масштабны, их нельзя визуализировать, чтобы увидеть, как данные перемещаются между пользователями. И одно из решений этой проблемы — обобщить данные, что я и делаю в своем исследовании. Это позволяет понять, как информация распространяется в системе и какие пользователи самые интересные и важные в процессе общения.

Сейчас все пользователи важны в процессе общения. Если определить этих важных пользователей, можно создать разные приложения. Например, можно остановить вирус, если таковой распространяется по системе. Можно рекламировать товары в системах «Твиттера». Можно разобраться, как люди воспринимают информацию в онлайновые часы и чем это непохоже на офлайновые часы. Мне кажется, одна из важнейших задач в этой области — понять миры онлайна и офлайна.

Сейчас есть новый тренд — «интернет вещей». Мы используем сенсоры, киберфизические системы, чтобы соединить миры онлайна и офлайна. Можно интернетизировать что угодно из физического мира в виртуальный. В этой области может быть масса проблем. На самом деле обработка больших массивов данных и «интернет вещей» — вернее, датамайнинг в этих областях — очень важны. Потому что с помощью знаний, полученных из данных, можно оптимизировать организацию информации в ограниченных сенсорных и смарт-устройствах.

Я думаю, управление большими массивами данных и датамайнинг очень важны для будущих исследований. Данных собирается все больше. С помощью «интернета вещей» можно собирать данные из разных отраслей. Можно собирать данные из электрических сетей. Можно собирать данные из любой отрасли, из своего «умного дома». И на этой основе анализировать поведение пользователей. А мотив для этой деятельности в том, что с помощью методов обработки больших массивов данных можно извлекать из данных важнейшие знания и повышать качество жизни или создавать новые продукты.

© ПостНаука, 30 апреля 2015

Tags: будущее и футурология, версии и прогнозы, вещи, видео, изобретения и открытия, иностранцы, интервью и репортаж, интересно, интернет и сети, информация, компьютеры и роботы, мнения и аналитика, нравы и мораль, общество и население, потребление, прогресс, россия, современность, техника и технологии, ученые, фантастика и утопии, экономфинбиз
Subscribe
promo eto_fake march 28, 2012 00:37 7
Buy for 10 tokens
Large Visitor Globe Поиск по сообществу по комментариям
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments