Май 17

Рост упоминаний анализа социальных сетей в Google Books

Готовясь недавно к выступлению о пользе анализа социальных сетей в народном хозяйстве, мучительно вспоминал, где я натыкался на графики роста упоминаний «социальных сетей» в публикациях. На ум пришел только исторический экскурс в анализ социальных сетей Фримена и ещё что-то.

Второй проблемой стал поиск нужной картинки в удобоваримом разрешении. Третьей — авторитетность источника, четвёртой — свежесть данных, пятой — красота графика и т.д. В общем, типичный набор проблем человека, вынужденного объяснять другим «актуальность и новизну» своих интересов.

И тут неожиданно нашёлся ответ на все семь бед: Google Books Ngram Viewer. О Google Ngrams я слышал и ранее, но данный инструмент опробовал впервые. Вкратце, он ищет необходимое сочетание слов по всей базе Google Books. В качестве настроек можно выбирать временной интервал и уровень сглаживания графика. Результат — моё почтение:

Анализ социальных сетей в Google Books Ngram Viewer

Рост упоминаний анализа социальных сетей в Google Books

 

Сходу могу предложить следующую интерпретацию некоторых скачков:

Довольно странный пик №1, т.к. сам концепт «социальная сеть» («social network») был «изобретён» в 1954 году (что и видно на пике №2). Он может быть связан с тем, что в исторической перспективе социальные сети как понятие принято связывать Георга Зиммеля, писавшего как раз в начале 20-го века.

Причиной «переломного момента» в точке №3 почти наверняка стал выход «библии анализа социальных сетей» Social Network Analysis: Methods and Applications Вассермана&Фауст , а также появившаяся на 2 года раньше хардкорная с математической точки зрения (и потому менее популярная) книжка Фримена&Уайта&Ромни Research Methods in Social Network Analysis.

. С точки №4 популярность анализа социальных сетей стремительно стартовала за счёт набежавших физиков в лице Данкана Уоттса, Альберта-Ласло Барабаши, Уолтера Строгача и пр. Подробнее об этих сюжетах можно почитать в моих предыдущих постах: про визуализацию книг по анализу социальных сетей на Amazon и про недостаток кооперации в области сетевого анализа.

Следующая же картинка может стать большим сюрпризом для тех, кто считает, что социальные сети начались с Фейсбука и Одноклассников:

Социальные сети в Google Books

Существовали ли социальные сети до Фейсбука и одноименного фильма?

Ко всему этому великолепию прилагается возможность работать с «сырыми данными», что на мой взгляд является золотой жилой для всех адептов text mining и topic modelling.

В общем, отличный инструмент для всех перфекционистов и просто людей, стремящихся обосновывать свои слова данными.

Мар 20

Слайды с Sunbelt

12 часов назад вернулся с главной международной конференции по анализу социальных сетей Sunbelt. Пока я наслаждаюсь радикальной сменой часовых поясов и пишу статью про сетевой анализ «сахарных» твиттов, вы можете ознакомиться со слайдами моей презентации, которые любезно подготовили коллеги с отделения Прикладной Математики и Информатики НИУ ВШЭ.

Отдельно хотелось бы поблагодарить Дмитрия Игнатова за краткий, но весьма доступный ликбез по вопросу формальных понятий и решёток Галуа, а также Дмитрию Гнатышаку за экстренное консультирование и всю проделанную работу.

Мар 06

Сетевая визуализация книг по анализу социальных сетей

Наткнулся на инструмент, который ищет заданную книгу на Амазоне и строит к ней интерактивный граф связанных с нею книг. Критерием связи, как я понял, является их рекомендательная система, т.е. количество пользователей, купивших вместе с этой книгой другие книги по схожей тематике.

Казалось, бы, ничего принципиально нового в этом нету, однако я был поражён, насколько точно данный граф отображает современное состояние анализа социальных сетей как дисциплины. Т.к. инструмент не позволяет встраивать динамическую визуализацию, то придётся довольствоваться картинкой, которую я на скорую руку нарисовал в Paint.

Книгой, которую я вбил в поиск была, как несложно догадаться, «библия анализа социальных сетей»: Social Network Analysis: Methods and Applications Стэнли Вассермана и Кэтрин Фауст. Кластер книг, обозначенный цифрой 1, который представляет собой по сути эгоцентрическую сеть данного издания, является essential reading или, если угодно, must read по анализу социальных сетей. В него входят такие книги, как:

Несколько странно, что сюда не попала книжка Introducing Social Networks Дежене и Форсе, которую лично я считаю более удачным хэндбуком, нежели простую, но суховатую книжку Скотта. Также несколько смущает отсутствие исторического экскурса в SNA от Линтона Фримена The Development of Social Network Analysis: A Study in the Sociology of Science. Впрочем, на фоне отсутствия целого кластера, посвященного анализу социальных сетей в организациях, это выглядит не столь странно.

В кластер номер 2 попали книги «новой волны» сетевого анализа. Их характерным отличием является то, что они посвящены анализу сетей вцелом, а не только социальных сетей. Так, сюда вошли 3 книги по сетевому анализу в экономике, уже успевшие стать «классикой»:

Особое положение между кластерами 1 и 2 занимает фундаментальный труд Марка Ньюмана Networks: An Introduction, являющийся по сути энциклопедией сетевого анализа, в которой анализ сетей социальных занимает лишь одну из частей. Действительно, сетевая позиция, которую, как правило, называют boundary spanner, как нельзя лучше характеризует данную книгу.

Третий кластер — это научно-популярное изложение сетевой теории от авторов, пришедших в сетевой анализ из физики: Дункана Уоттса, Стивена Строгатца, Альберта-Ласло Барабаши:

Зная бэкграунд этих авторов, нет ничего удивительного в том, что соседний кластер под номером 4 занимают книги, посвященные теории хаоса и сложных систем (Complexity Theory):

Нетрудно заметить, насколько обособленно от них находится книжка Николаса Кристакиса Connected, которую я упомянал в одном из предыдущих постов. Может потому, что тот пришёл в Network Science из медицины.

Пятый кластер, связанный с «джентльменским набором анализа социальных сетей» через весьма неплохую книжку по анализу сетей social media в NodeXL «Analyzing Social Media Networks with NodeXL: Insights from a Connected World«, представляет собой ни что иное, как подборку книг по data mining и big data.

Та же книга связывает традиционный анализ социальных сетей с бизнес-аналитикой, CRM и Digital Forensics, образовавшими кластер под номером 6.

Практически со всеми книгами данного списка я так или иначе знаком, поэтому в дальнейшем рецензии на них будут появляться в специальном разделе данного блога, посвященном книгам. Напоследок хотелось бы заметить, что подобный вид визуализации и подачи рекомендуемых книг кажется мне особенно интересным и перспективным, т.к. позволяет увидеть кластеры предметных областей, к которым принадлежат те или иные книги.

Также, как показывает практика, процесс оттягивания одного из узлов курсором мышки и наблюдения, как вся сеть болтается словно в желе, развлекает не хуже упаковки с пупырышками =).

Фев 28

Бимодальная сеть благодарственных речей лауреатов премии Оскар

Хотел написать об этом ещё вчера, однако навыки гугления подвели, поэтому пришлось обратиться за помощью к учёному сообществу.

The New York Times сделала забавную визуализацию речей победителей церемонии Оскар 2007 в виде бимодальной сети:

Обычно, в сетевом анализе с помощью бимодальных сетей (или, если угодно, «двудольных графов») представляют взаимоотношения между сущностями двух классов. Как правило, это люди и организации, люди и советы директоров компаний и т.д. Здесь же авторы NYT подошли к вопросу креативно, изобразив взаимосвязь между лауреатами церемонии (кружки с картинкой) и теми, кого они благодарили в своей «acceptance speech» (кружки без картинки).

Как видно из картинки, наибольшее число благодарностей собрали режиссеры, сценаристы, продюсеры, а также семья. Бога, бойфренда, Арнольда Шварценеггера и всех латиносов упомянули по одному человеку.

Честно говоря, данная визуализаци мне не кажется особенно удачной. Я, например, не сразу увидел, что некоторые картинки фильмов там повторяются. Да и какого бы то ни было анализа тоже не последовало (по крайней мере, я не нашёл). А ведь можно было бы, например, превратить эту бимодальную сеть в две: связи между номинантами и между объектами благодарности и посмотреть, какие фильмы/благодетели наиболее близки друг-другу.

В общем, как это зачастую бывает — не лучшая реализация интересной идеи.

Фев 27

Николас Кристакис о заражении ожирением и счастьем через социальные сети

Сегодня в Лос-Анджелесе стартует очередной TED — пожалуй, слишком известное мероприятие, чтобы оскорблять читателей его описанием. Поэтому я ограничусь упоминанием одного из выступлений, посвященных, как нетрудно догадаться, анализу социальных сетей.

Данное выступление Николаса Кристакиса по сути пересказывает основную идею и содержание его книги Connected: The Amazing Power of Social Networks and How They Shape Our Lives. Идея эта заключается в том, что многие аспекты жизни, включая счастье и ожирение (а может, то и другое одновременно), «заразительны» и это «заражение» распространяется по социальным сетям. Т.е. если среди ваших контактов преобладают несчастные и/или страдающие ожирением люди, будьте готовы к покупке одежды бОльших размеров и походам к психотерапевту.

Заражение счастьем через социальные сети

Социальные сети счастья

Подобные выводы относительно ожирения основаны на уникальных лонгитюдных данных, основанных на медицинских наблюдениях за тремя поколениями людей, суммарная выборка которых составила 12,067 человек. Ключевой находкой стал вывод о том, что попадание человека в окружение (в прямом и переносном смыслах) людей с излишним весом на 57% повышает его шансы самому обзавестись дополнительными килограммами и складками. Причём относится это по большей части к дружеским, нежели к семейным связям. Так что пухлого дядюшку терпеть можно смело, а вот о дружбе с толстяком стоит крепко призадуматься.

За популярным изложением этой истории можно обратиться к статье в New York Times. Более дотошным читателям могу порекомендовать публикацию на сайте The New England Journal of Medicine со всеми подробностями и динамической визуализацией распространения ожирения.

Лично меня особенно позабавил момент выступления, когда Николас рассказывает о том, как заразительна улыбка, с оговоркой о том, что это не относится к Нью-Йорку. Мой опыт полностью подтверждает данное наблюдение.

Если говорить о книге, то она мне показалась излишне художественной и содержащей слишком много «лирики». Ушлые книгоиздатели уже успели перевести её на русский, однако, зная каКчество отечественных переводов и изданий зарубежных бестселлеров (особо показательный случай), а также учитывая то, что на том же Озоне оригинал можно купить дешевле, я бы вам посоветовал именно его.

Возвращаясь напоследок к TED, думаю, имеет смысл добавить следующее объявление:
Команда TEDxVorobyovyGory, ФОМ MEDIA и Plug and Play Tech Center планируют провести прямую трансляцию второго дня этого события, которая пройдет 29 февраля с 20.30 до 03.00 по московскому времени в бизнес центре Премьер Плаза.

Подробности.

Фев 17

Как с помощью анализа социальных сетей ловили Саддама Хуссейна

Slate относительно недавно выпустил публикацию и видеоролик о том, как анализ социальных сетей помог найти Саддама Хуссейна и почему он оказался не столь эффективным в поимке Усамы Бен Ладена. Ответ на второй вопрос я предлагаю найти вам самостоятельно, т.к. публикация действительно интересная и несомненно заслуживает прочтения. Я же сконцентрируюсь на первом пункте.

Моё внимание привлекло упоминание о том, что один из солдат, участвовавший в операции по обнаружению и поимке Саддама Хуссейна, впоследствие защитил по этим материалам PhD. С текстом его диссертации под названием «Formalizing the Informal: A Network Analysis of an Insurgency» (pdf) я и решил ознакомиться поближе, благо картинки на первый взгляд выглядели интересно:

Saddam's secretary social network

Уж лучше бы я этого не делал.

Если выразить мои претензии кратко и метафорично, то судя по тексту, автор служил в ранге капитана. И вот почему.

Начал наш бравый вояка за здравие: разложил базу имевшихся у него контактов Саддама по типам связей на 2 сети:

  • сеть доверия (Trust), куда вошли близкие/дальние родственники, друзья и охрана
  • стратегическая сеть (Strategy&Goals) с контактами по поводу организации беспорядков (insurgency), финансы и прочие ресурсы

На каждой из этих сетей он сделал ряд более-менее стандартных измерений: размер и плотность сети, её транзитивность, количество клик, посчитал центральности узлов в каждой из них (причём, почему-то обойдясь без closeness centrality и интерпретируя out-degree как «влиятельность»). Под конец он провёл ролевой анализ эгоцентрических сетей основных участников, померив структурную и автоморфную эквивалентности.

И вроде бы всё хорошо, да только выводы, к которым он пришёл, разят наповал своей сенсационностью. Судите сами:

«Transitivity tells us that Saddam Hussein has ties with his personal secretary. The personal secretary has ties with a Fedayeen weapons’ supplier. However, Saddam Hussein does not have a direct relationship with the weapons’ supplier. Therefore, in this case, when the objective is to capture Saddam Hussein, it is unlikely that the weapons’ supplier will be able to provide any specific information as to the location of Hussein. Useful, however, is the location of the personal secretary, which the weapons’ supplier may be able to provide due to the direct relationship between the two.» p. 104

Это, конечно, замечательное наблюдение, но при чём тут транзитивность как сетевая статистика? Это же видно «на глаз».

«From this it is apparent that the Network of Saddam Hussein is a localized network where those on the periphery are «less connected» — that is there are great inequalities in actor centrality. Those with power have it, and those without it do not!» p. 129

Периферия такая периферия!

«There is a clear division of labor within the network – financiers, decision makers, operators, logisticians, weapons’ distributors, etc.» p. 149

Да поди ж ты! А так это было непонятно.

Но самое смешное заключается в том, что в самом начале диссертации автор пишет (p. 84), что конкретное место, где нашли Саддама, находилось чуть дальше, чем предполагали они и указал им на него человек, захваченный утром в совершенно другой операции, не связанной с поимкой Саддама!

Тогда к чему весь последующий цирк с сетями? Я бы понял, если бы на этого человека вышли с помощью сетевого анализа, но ведь нет же, его поймали случайно. А весь SNA свёлся к бездумному применению стандартных метрик и столь же бездумной их интерпретации и открытиям типа «сеть финансовых связей обладает низкой плотностью».

Вот такой вот PhDец!

Фев 11

Как неформальные связи Microsoft спасли

В презентации на том же, мероприятии, о котором написано в предыдущем посте, использовал следующую, довольно известную картинку:

Судя по всему, создавшие её шутники хотели сказать, что различные департаменты компании Microsoft находятся в состоянии вражды друг с другом, что не лучшим образом сказывается на качестве продукции.

Однако, существует другое мнение относительно неформальных связей внутри данной корпорации. Так, в ходе знаменитого судебного процесса, затеянного антимонопольной службой США, итогом которого могло стать разделение компании на несколько частей, одним из аргументов защиты было то, что именно плотность неформальных сетей между топ-менеджментом является одним из факторов успеха и если произойдёт разделение компаний, то это может нанести серьёзный ущерб бизнесу.

Я написал авторам статьи, в которой упоминается данный сюжет, письмо с просьбой предоставить дополнительную информацию по данному поводу или хотя бы какую-то ссылку. От одного из них я получил следующий ответ:

Sorry, Alexander. It was too long ago and the reference was from my confidental notes in preparing for expert witness testimony at the hearings

Пока что мои навыки работы с LexisNexis оставляют желать лучшего, поэтому остаётся только верить авторам на слово.

Фев 10

От социальных сетей к организационным и обратно

Вчера выступал в ФОМе на презентации «Оценка эффективности корпоративных программ и способы защиты бюджета» в рамках федерального проекта «Практики карьеры«, экспертом которого я являюсь, с рассказом о применении анализа социальных сетей в организациях.

В связи с неожиданным авралом на основной работе, времени на подготовку было в обрез и хватило аккурат на 7-минутный рассказ, предусмотренный форматом встречи. В условленное время я уложился, надеюсь, что смысл донести тоже удалось.

Так как в последнее время я нахожусь под сильным влиянием идей Тима Ферриса и, в частности, сижу на строгой информационной диете, то при подготовке слайдов использовал материалы из старых запасов. Поэтому сегодня я наткнулся на вчерашнюю запись Валдиса Кребса о том, как Social Network Analysis превратился в Organization Network Analysis (и обратно) со смешанными чувствами. Как минимум потому, что его картинка гораздо удачнее отображала суть различия между формальной и неформальной структурой организации, чем моя:
Формальная и социальная сети в организации

Для ленивых суть истории заключается в том, что когда в начале 90х коллега Кребса начал активно внедрять анализ социальных сетей в компании IBM, многие директора не понимали, при чём тут «социальное» и данное слово пришлось везде заменить на «организационное». В нынешний же век торжества электронной социальности приходится менять названия обратно.

Также в записи содержатся ссылки на описание социальных сетей в организациях, написанное Валдисом в 1996 году (pdf), которое, впрочем, актуально до сих пор. Там же лежит глава из неопознанной книги по той же теме (pdf). Удивительно то, что другая её глава уже достаточно давно пылится у меня в закромах а я до сих пор так и не знаю названия самой книги.

Ноя 18

Анализ социальных сетей в i2 Analyst Notebook

Продукция компании i2 является весьма популярной в различных аналитических службах. И как следствие — дорогой. Особенно распиарена их платформа Analyst Notebook, предназначенная для анализа связей (Link Analysis). А также в неё есть некоторый функционал для анализа социальных сетей (Social Network Analysis). Предлагаемый по ссылке вебинар смотреть я не стал и, так как инструмент был под руками, решил его опробовать.

Для начала построил картинку по данным диссера:

На вид она весьма читаема за счёт удачного расположения узлов. Однако, если приглядеться, то можно увидеть, что веса исходящих и входящих связей на ней отображены отдельно. Возможно, в каких-то ситуациях это и является преимуществом, если бы не одно «но». Суммировать эти веса Analyst Notebook не умеет. Вроде бы и тривиальная вещь, а тем не менее.

Из сетевых метрик есть только классические показатели центральности: degree, closeness, betweenness и eigenvector. Всё. На этом функционал сетевого анализа заканчивается. Разве что масштабирование размеров узлов есть в зависимости от центральности. Но это уже больше к визуализации относится.

Вообще, меня не покидает ощущение, что программы подобного класса по сути продают воздух. Вся их ценность, на мой взгляд, заключается только в семантическом слое, который позволяет создавать запросы к БД перетаскиванием иконок. Кстати, функционал БД у них тоже дублируется приложением iBase, смысл которого мне тем более не понятен, т.к. Analyst Notebook умеет подключаться к MS SQL Server напрямую.

Впрочем, такую бедность инструментария Analyst Notebook можно списать на основные цели программы. Всё таки Link Analysis предназначен в основном для поиска связей между сущностями, в то время как анализ социальных сетей предназначен для изучения уже имеющихся связей. Поэтому вполне разумно использовать эти методологии и соответствующие им инструменты последовательно, в связке: LA -> SNA. Если у меня получится подобный кейс — расскажу.

Сен 23

Первый блин в Gephi

Поняв, что желаемую динамическую визуализацию сети концептов, используемых в ходе дискуссий в LiveJournal, я получу скорее в Gephi, нежели в ORA, решил перебороть первое неприятие и познакомиться с программой поближе.

К сожалению, первые впечатления только усилились. Более непродуманного и нелогичного интерфейса я ещё в жизни не встречал! После 2х часов мучений, максимум, чего мне удалось добиться, было это:

Данная визуализация построена по данным широко известного в узких кругах скандала под названием «Куракингейт». В данном случае узлы представляют блоггеров, а связи — комментирование одним блоггером записей или комментариев другого блоггера.

Лично мне бы хотелось как минимум наличия стрелок на конце линий, однако в Gephi эта задача не из тривиальных. Буду разбираться дальше.

Предыдущие сообщения «