Нажмите "Нравится" чтобы следить за страницей CultLook
Нажмите "Подписаться", чтобы следить за новостями CultLook


Наука о культуре?


Социальный компьютинг, цифровые гуманитарные науки и культурная аналитика

Перевод: Екатерина Арье и Оксана Мороз

Лев Манович
The Science of Culture? Social Computing, Digital Humanities, and Cultural Analytics, 2015
Лев Манович

Профессор Graduate Center, City University of New York (CUNY)
Директор Software Studies Initiative
softwarestudies.com
1.

Исследуя большие объемы культурных данных:

Cоциальный компьютинг и цифровые гуманитарные науки
Я определяю культурную аналитику (cultural analytics) как «анализ культурных данных при помощи техник программирования и визуализации». Я разработал этот концепт в 2005 году, в 2007 мы создали исследовательскую лабораторию (Software Studies Initiative), чтобы приступить к работе над конкретными проектами. Ниже представлены примеры теоретических проблем и практических вопросов, вдохновляющих нас:
Что такое репрезентация «культуры» посредством «данных»? Каковы уникальные возможности компьютерного анализа больших культурных данных в сравнении с качественными методами исследования, применяемыми в гуманитарных и социальных науках? Как использовать методы количественного анализа для исследования ключевых форм (и, одновременно, артефактов, практик) современной культуры – интерактивных медиа? Как можно сочетать компьютерный анализ и визуализацию больших культурных данных с качественными методами, например, «медленным чтением»? Другими словами, как можно совместить анализ крупных паттернов с детальным изучением отдельных артефактов и их составляющих? Как с помощью компьютерного анализа должным образом оценить вариативность и многообразие культурных артефактов и процессов, не сосредотачивая внимание исключительно на объектах, отвечающих критериям «типичного» или «популярного»?
Спустя восемь лет результаты работы нашей лаборатории представляют собой лишь небольшую долю в реализуемых многочисленных исследованиях. Тысячи аналитиков уже опубликовали десятки тысяч текстов и проектов, связанных с анализом паттернов в больших массивах культурных данных.

Во-первых, изучаются данные, описывающие активность пользователей в наиболее популярных социальных сетях (Flickr, Instagram, YouTube, Twitter и т.д.), пользовательский контент, распространяемый посредством соцсетей (твитты, изображения, видео и т.д.), а также практики взаимодействия пользователей с этим контентом (в формате лайков, шеров, репостов и комментариев). Во-вторых, исследователи начали работать с конкретными профессиональными культурными пространствами, в том числе с учетом существующей исторической перспективы. Например, веб-дизайн, фэшн-фотография, популярная музыка XX века, литература XIX века – все это становится объектом изучения. В результате мы наблюдаем развитие двух новых и близких областей знания – социального компьютинга (social computing) и цифровых гуманитарных наук (digital humanities).

Но какая роль тогда отводится культурной аналитике? Я полагаю, она по-прежнему выполняет роль интеллектуальной модели. Как мы увидим далее, цифровые гуманитарные науки и социальный компьютинг определяют собственные исследовательские области в соответствии с типами изучаемых культурных данных. В то же время у культурной аналитики такие ограничения отсутствуют. Нам также не приходится выбирать между гуманитарными и техническими подходами к определению целей и задач, методологии исследования или выстраивать логику подчинения одной оптики – другой. Напротив, мы заинтересованы в сочетании обоих типов подходов в процессе культурной аналитики. Так, мы уделяем внимание изучению тех или иных частных случаев и их интерпретации; такая логика унаследована от гуманитаристики. И, одновременно, сосредотачиваемся на анализе общих и формальных моделей, прогнозировании будущего; наличие подобных практик указывает на следование логике технических дисциплин. В этой статье я прокомментирую эти и другие характеристики обоих подходов к исследованию больших массивов культурных данных (обращая внимание на специфику развития проблемных областей) и укажу на те возможности исследовательской оптики и идеи, которые пока еще не апробированы.
Впрочем, если внимательно посмотреть на работы, сделанные в соответствии с идеологией компьютерных наук, становится очевидно: вообще-то они вполне коррелируют с гуманитарными изысканиями или исследованиями в рамках теории коммуникации (в контексте современных медиа) – но на другом уровне и в большем масштабе.
Исследователи из области цифровых гуманитарных наук используют компьютерные технологии для изучения исторических артефактов, некогда созданных профессиональными сообществами. Например, для работы с романами, написанными писателями в XIX веке. Однако время здесь не играет им на руку – аналитикам приходится считаться с ограничениями, которые накладывают на их исследования национальные законодательства об авторском праве. В частности, согласно закону Соединенных Штатов об авторском праве, работы, опубликованные за последние 95 лет, автоматически защищены копирайтом. Беря за отчет 2015 год, приходится признать: все, написанное после 1920, охраняется авторским правом, если только это не новейший цифровой контент, созданный на основе лицензии для бесплатного распространения произведений культуры Creative Commons. Я принимаю и уважаю законы об авторском праве, но для цифровых гуманитариев их реализация означает невозможность изучения настоящего, современности.

Аналитическое поле социального компьютинга отличается значительно большим масштабом. Эксперты с учеными степенями в области компьютерных наук изучают пользовательский онлайн контент и практики взаимодействия с ним. Заметим, что такие исследования проводятся не только специалистами в сфере компьютерных и информационных технологий, т.е. теми, кто определяет свое поле профессиональной деятельности через принадлежность к «социальному компьютингу». Подобные аналитические задачи ставят перед собой и представители таких субдисциплин из пространства компьютерных наук как computer multimedia, computer vision, music information retrival, natural language processing и web-science. Таким образом, «социальный компьютинг» может быть использован как зонтичный термин, содержание которого подразумевает исследования в поле компьютерных наук, которые сосредоточены на работе с контентом и пользовательской активностью в социальных сетях. Эти эксперты имеют дело с данными, появившимися после 2004 года, когда социальные сети и медиа-шэринг начали набирать популярность. Если учесть, что для написания исследования и его публикации вам потребуется 1-2 года, то справедливо считать, что работы, опубликованные в 2015 году, опираются на данные, собранные в 2012-2014 соответственно. Исследуемые массивы данных в данном случае обычно гораздо масштабнее тех, что привлекаются в проектах digital humanities. Массивы, состоящие из десятков или сотен миллионов постов, фотографий и других элементов – не редкость. А поскольку большая часть пользовательского контента создается не-профессионалами, т.е. «обычными» людьми, справедливым будет заметить, что социальный компьютинг по определению исследует не маркированные профессиональными особенностями, а общие и обыденные, привычные элементы культуры.
Причечание
Вы можете познакомиться с программами конференций по этим темам. Обратите внимание, какой широкий круг проблем затрагивается участниками: http://cscw.acm.org/2016/submit/
Разнообразие спектра таких исследований может показаться удивительным для гуманитариев или представителей современных арт-практик – сложно осознать, насколько велико число людей, работающих в области компьютерных наук и смежных дисциплинах. Например, по результатам поиска в Google Scholar (Google Академия) по запросу «twitter dataset algorithm» мы получаем 102 000 статей, по запросу «YouTube video dataset» – 27 800, а для «flickr images dataset» – 17 400. На запрос «computational aesthetics dataset» я получил 14 100 результатов поисковой выдачи. Даже если реальное количество оригинальных текстов несколько меньше, ситуация все равно впечатляющая. Очевидно, что далеко не во всех этих публикациях анализируется культурная проблематика, но многие тексты ее касаются.

Эта таблица резюмирует разницу между обозначенными исследовательскими областями – по крайней мере, с моей точки зрения, которую я отразил в таблице:
Почему специалисты, работающие в области компьютерных наук, реже обращают свое внимание на массивы исторических данных? Как правило, они подтверждают качество своих исследований ссылками на существующие и применяемые приложения – например, на поисковые приложения или рекомендательные системы, работающие посредством анализа онлайн контента. Общее предположение таких экспертов можно сформулировать следующим образом: компьютерные науки создадут качественно новые алгоритмы и другие технологические решения, полезные и доступные профессиональным сообществам и государственным институциям. А поскольку анализ исторических артефактов не способствует достижению этой цели, следовательно, гораздо меньше специалистов работают с историческими данными. Пожалуй, практики изучения цифрового наследия (digital heritage) выступают здесь исключением из правил.

Впрочем, если внимательно посмотреть на работы, сделанные в соответствии с идеологией компьютерных наук, становится очевидно: вообще-то они вполне коррелируют с гуманитарными изысканиями или исследованиями в рамках теории коммуникации (в контексте современных медиа) – но на другом уровне и в большем масштабе. Посмотрим, к примеру, на эти недавние публикации: «Quantifying Visual Preferences Around the World» и «What We Instagram: A First Analysis of Instagram Photo Content and User Types». В первой статье анализируются пользовательские предпочтения в области веб-дизайна. Исследование проводилось в мировом масштабе – на основании 2,4 миллиона оценок (рейтингов), полученных от 40 000 человек из 179 стран. Очевидно, что такие изыскания в области эстетики и дизайна традиционно причисляются к спектру гуманитарных исследований. Авторы второй статьи работают с наиболее популярными и часто встречающимися сюжетам фотографий в Instagram. Эту проблематику можно сравнить с изучением жанров датского искусства XVII века в рамках истории искусств.

Другой пример – статья под названием «What is Twitter, a Social Network or a News Media?». Опубликованный в 2010 году, этот текст цитировался 3284 раза в других статьях, подготовленных в рамках компьютерных наук. Это было первое крупномасштабное исследование социальной сети Twitter – для его реализации были проанализированы 106 миллионов твиттов, написанных 41,7 миллионами пользователей. В ходе работы автор обратил особое внимание на популярные сюжеты, к которым часто апеллировали пользователи. Таким образом, основной интенцией стало изучение того, «как можно классифицировать популярные темы, как долго они остаются в «топе» и какое количество людей участвуют в их «производстве» и поддерживают высокую частотность их обсуждения». Это классический исследовательский вопрос для теории коммуникации, восходящий к работам Пола Ф. Лазарсфельда (Paul F. Lazarsfeld) и его коллег, в 1940-е гг. вручную подсчитывавших сюжеты, что обсуждали тогда в радиопередачах. Но Twitter и другие подобные сервисы микроблоггинга представляют собой новую форму медиа – как живопись маслом, книгопечатание и фотография в свое время. Значит, изучение специфики Twitter как медиума также подпадает под «юрисдикцию» гуманитариев.

Стоит отметить, что небольшое количество текстов написаны на пересечении цифровых гуманитарных наук и социального компьютинга. Их авторы используют машинные методы и алгоритмы, разработанные специалистами из области компьютерных наук, чтобы изучать актуальный пользовательский контент и медиа, а потом использовать полученные результаты для работы с историческими артефактами, созданными представителями профессиональных сообществ – художниками, писателями, редакторами, музыкантами, режиссерами и т.д. В качестве ярких примеров таких исследований можно назвать: «Toward Automated Discovery of Artistic Influence», «Infectious Texts: Modeling Txt Reuse in Nineteenth Century Newspapers», «Measuring the Evolution of Contemporary Western Popular Music» и «Quicker, faster, darker: changes in Hollywood film over 75 years».
Reinecke K., Gajos K. Z.
Reinecke K., Gajos K. Z. Quantifying visual preferences around the world //Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. – ACM, 2014. – С. 11-20.
Haewoon Kwak, Changhyun Lee, Hosung Park, Sue Moon
Haewoon Kwak, Changhyun Lee, Hosung Park, Sue Moon, "What is Twitter, a Social Network or a News Media?" Proceedings of the 19th International World Wide Web (WWW) Conference (ACM, 2014): 591-600
Babak Saleh, Kanako Abe, Ravneet Singh, Arora Ahmed Elgammal
Babak Saleh, Kanako Abe, Ravneet Singh, Arora Ahmed Elgammal, "Toward Automated Discovery of Artistic Influence," Multimedia Tools and Applications (Springler, 8/19/2014): 1-27.
David A. Smith, Ryan Cordell, and Elizabeth Maddock Dillon
David A. Smith, Ryan Cordell, and Elizabeth Maddock Dillon, "Infectious texts: Modeling text reuse in nineteenth-century newspapers," Proceedings of 2013 IEEE Conference on Big Data (IEEE, 2013): 84-94.
Joan Serrà, Álvaro Corral, Marián Boguñá, Martín Haro, Josep Ll. Arcos
Joan Serrà, Álvaro Corral, Marián Boguñá, Martín Haro, Josep Ll. Arcos, "Measuring the Evolution of Contemporary Western Popular Music," Nature Scientific Reports 2, article number: 521 (2012), http://www.nature.com/articles/srep00521.
James E Cutting, Kaitlin L Brunick, Jordan DeLong, Catalina Iricinschi, Ayse Candan
James E Cutting, Kaitlin L Brunick, Jordan DeLong, Catalina Iricinschi, Ayse Candan, "Quicker, faster, darker: Changes in Hollywood film over 75 years," iPerception (2011), vol. 2: 569 – 576.
Для получения репрезентативной подборки нам, прежде всего, нужно собрать большой массив элементов, из которого мы сможем ее выделить. При менее удачном стечении обстоятельств большой архив как минимум поможет понять специфику контента/данных.
Нажмите "Like" чтобы следить за новостями CultLook на Facebook
До недавнего времени единственным проектом, в котором культурная история анализировалась посредством огромного массива из миллионов текстуальных фрагментов, была работа специалистов из области технического знания, а не гуманитариев. Я говорю о N-Gram Viewer, созданном в 2010 году экспертами из лабораторий Google – Джоном Орвантом (Jon Orwant) и Уиллом Брокманом (Will Brockman), разрабатывавших идею двух аспирантов (изучавших, заметим, биологию и прикладную математику) из Гарварда. Впрочем, в последнее время специалисты в области digital humanities значительно увеличивают объем исследуемых ими данных. Например, в проекте «Mapping Mutable Genres in Structurally Complex Volumes» литературовед Тэл Андервуд (Ted Underwood) в составе коллектива авторов проанализировал 469 200 книг Trust Digital Library. Историк искусства Максимилиан Щич (Maximillian Schich) с коллегами изучил жизненные пути 120 000 выдающихся исторических личностей (A network framework of cultural history). Постепенно еще более масштабные массивы исторических данных (из полей литературы, фотографии, кино и телевидения) становятся все доступнее – однако они все еще ждут своих исследователей. В 2012 году городской архив Нью-Йорка опубликовал 870 000 оцифрованных исторических фотографий города. В 2015 году HathiTrust открыли, а, значит, сделали доступными для анализа, данные, полученные в результате изучения 4 801 127 томов (в общей сложности, 1,8 миллионов страниц текста). В том же году The Associated Press и British Movietone загрузили на YouTube 550 000 оцифрованных новостных материалов за период от 1985 и до наших дней.
Ted Underwood, Michael L. Black, Loretta Auvil, Boris Capitanu
Ted Underwood, Michael L. Black, Loretta Auvil, Boris Capitanu, "Mapping Mutable Genres in Structurally Complex Volumes," Proceedings of the 2013 IEEE Conference on Big Data (IEEE, 2013).
Maximilian Schich, Chaoming Song, Yong-Yeol Ahn, Alexander Mirsky, Mauro Martino, Albert-László Barabási, Dirk Helbing
Maximilian Schich, Chaoming Song, Yong-Yeol Ahn, Alexander Mirsky, Mauro Martino, Albert-László Barabási, Dirk Helbing, "A network framework of cultural history," Science 1 August 2014: 345 (6196): 558-562/
Maximilian Schich, Chaoming Song, Yong-Yeol Ahn, Alexander Mirsky, Mauro Martino, Albert-László Barabási, Dirk Helbing
Maximilian Schich, Chaoming Song, Yong-Yeol Ahn, Alexander Mirsky, Mauro Martino, Albert-László Barabási, Dirk Helbing, "A network framework of cultural history," Science 1 August 2014: 345 (6196): 558-562/
Почему так важно собирать массивы культурных данных? Неужели нельзя использовать меньшие подборки? Думаю, существует несколько доводов в пользу работы с большими массивами.
1
Во-первых, для получения репрезентативной выборки нам, прежде всего, нужно собрать большой массив элементов, из которого мы сможем ее выделить. При менее удачном стечении обстоятельств большой архив как минимум поможет понять специфику контента/данных. Так, например, если мы хотим сформировать репрезентативную базу фильмов XX века, мы можем воспользоваться сайтом IMDb, который содержит информацию о 3,4 миллионах кинокартин и ТВ-шоу (включая отдельные эпизоды). Похожим образом мы можем собрать отличную историческую подборку из американских газетных полос при помощи коллекции Historical American Newspaper, в которой содержатся миллионы оцифрованных страниц из Библиотеки Конгресса. Однако в большинстве других культурных пространств таких архивов данных не существует, а без них практически невозможно составить репрезентативную выборку.
2
Второй довод звучит следующим образом. Имея большую репрезентативную выборку данных из источников, релевантных тому или иному культурному пространству, мы можем выделить на ее основаниях соответствующие ключевые тренды и паттерны. Например, в уже упомянутой работе «What We Instagram: A First Analysis of Instagram Photo Content and User Types» три исследователя из поля computer science проанализировали 1 000 фотографий, опубликованных в сети Instagram, и выделили восемь ключевых категорий, описывающих популярные сюжеты снимков (сэлфи, друзья, мода, еда, гаджеты, физическая активность, домашние животные и изображения с подписями). Эта 1 000 фотографий была выбрана произвольно на основании более крупной подборки в 95 343 фотографий, созданных т.н. «уникальными пользователями». Возможно, эти восемь категорий были наиболее популярными в рамках сети Instagram по всему миру в тот момент, когда разрабатывалось исследование. Однако, как мы убедились в собственных проектах, посвященных анализу Instagram-фотографий в разных городах и их районах, люди публикуют и другие изображения, которые не укладываются в представленную выше «типологию». Так что в зависимости от местоположения и темпоральных особенностей, эта «восьмерка» сюжетов может быть смещена с лидирующих позиций иными образами. Другими словами, небольшая подборка позволяет отыскать «типичное» или «наиболее популярное». Однако ее использование не помогает обнаружить т.н. «острова контента» - такие типы данных, которые, с одной стороны, связаны наличием специфической семантики и/или близкими эстетическими особенностями, характеристиками, а с другой – характеризуются умеренным уровнем распространения.
Прим. автора
Например, см проект «The Exceptional and the Everyday», подготовленный на визуальном материале, актуальном для центра Киева в 2014 году во время политического кризиса: Lev Manovich, Mehrdad Yazdani, Alise Tifentale, Jay Chow, The Exceptional and the Everyday: 144 hours in Kyiv (2014)
Прим. ред.
"Острова контента", употребляемые автором ранее далено не синонимичны "широкому" широкому определению термина. См. последнее здесь.
2.

Можем ли мы изучать все?

Когда я впервые задумался о культурной аналитике в 2005 году, цифровые гуманитарные науки и социальный компьютинг только-только зарождались как области исследования. Я чувствовал острую необходимость представить новый термин («Cultural Analytics»), чтобы продемонстрировать – работа нашей лаборатории не будет осуществляться в рамках DH или CS, хотя и будет связана с изучением предметов и объектов, вокруг которых сконцентрировано внимание обеих дисциплинам.

Как и digital humanities, мы заинтересованы в анализе исторических артефактов. Но не в меньшей степени мы хотим работать с элементами современной цифровой визуальной культуры (например, с контентом Instargam), «производными» профессиональных культур, а также с артефактами, создаваемыми любителями или художниками, но за пределами мира искусств (например, с devianart.com – «самой обширной социальной сетью для художников и энтузиастов») и пользовательским контентом (созданным людьми, просто периодически загружающими фотографии в социальные сети).

Как и исследователи из пространства социального компьютинга, мы неравнодушны к изучению общества – с помощью медиа и с особым вниманием к социальным феноменам, специфичным для той или иной социальной сети. В прошлом мы уже представляли проект – «The Livehoods Project: Utilizing Social Media to Understand the Dynamics of a City» – чьей основой стал анализ феномена городского соседства (neighborhood), «замеряемый» посредством работы с активностью пользователей в социальных сетях. Более актуальный пример – проект «Delayed information cascades in Flickr: Measurement, analysis, and modeling», в рамках которого изучались паттерны распространения информации в онлайн-пространстве. Если социальный компьютинг в большей степени сосредотачивается на «социальном» при изучении социальных сетей, то культурная аналитика, как следует из названия, ориентирована на работу с культурным модусом. Следовательно, для культурной аналитики наиболее близкой субдисциплиной социальных наук оказывается социология культуры, и лишь потом – социология, экономика.
Justin Cranshaw, Raz Schwartz, Jason I. Hong, Norman Sadeh
Justin Cranshaw, Raz Schwartz, Jason I. Hong, Norman Sadeh, "The Livehoods Project: Utilizing Social Media to Understand the Dynamics of a City," The 6th International AAAI Conference on Weblogs and Social Media (Dublin, 2012)
Meeyoung Cha, Fabrício Benevenuto, Yong-Yeol Ahn, Krishna P. Gummadi
Meeyoung Cha, Fabrício Benevenuto, Yong-Yeol Ahn, Krishna P. Gummadi, "Delayed information cascades in Flickr: Measurement, analysis, and modeling," Computer Networks 56 (2012): 1066–1076.
Культурная аналитика заинтересована в изучении всего, созданного всеми.
Мы уверены, что интернет и социальные сети – их контент, специфичные и универсальные типы пользовательской активности – позволяя анализировать и проблематизировать концепты и инструменты гуманитарных наук, созданные для анализа «небольших культурных данных» (иначе говоря, тщательно отобранных, но нерепрезентативных подборок), в то же время предоставляют беспрецедентную возможность для описания, моделирования и воспроизводства глобального культурного пространства. Согласно одной из самых влиятельных точек зрения, которую озвучил британский критик культуры Мэтью Арнольд (Matthew Arnold), культура – это «лучшее, что было сделано или сказано». Теоретики-гуманитарии неукоснительно следовали этому определению. И даже когда исследовательские интенции поменялись, и озвученной канонической позиции стали сопротивляться – путем, например, изучения проблематики, связанной с ранее исключенными субъектами и темами (например, женщинами, не-белыми, не-западными авторами, квир и т.д.) – эксперты все равно выбирали только «лучшее», правда, теперь из числа созданного теми, кто раньше входил в «слепую зону» изысканий.

Культурная аналитика заинтересована в изучении всего, созданного всеми. В своем подходе к культуре мы парадоксальным образом схожи с лингвистами и их отношении к изучаемым языкам или даже с биологами, исследующими любую жизнь на земле, без исключений. В идеале мы стремимся проанализировать каждое проявление и воплощение культуры, а не только избранную подборку. Замечу, что такое системное понимание проблематики вполне соответствует оптике, принятой в культурной антропологии. С 2008 года наша лаборатория представила проекты, в которых эксперты работали с гораздо более всеобъемлющими данными, объектами и предметами, относимыми к таким проблемным полям как «профессиональное» и «обыденное», «историческое» и «современное». Мы проанализировали созданный профессионалами культурно и исторически значимый контент в рамках исследования всех обложек журнала Time (с 1923 по 2009); картины Винсента ван Гога, Пита Мондриана и Марка Ротко; 20 000 фотографий из коллекции Нью-Йоркского музея современного искусства музея; 1 000 000 страниц из 883 комиксов манга, опубликованных за последние 30 лет. Наш анализ локального и обыденного, часто встречаемого контента может быть представлен проектами, основанными на сравнении визуальных подписей для 13 крупных городов посредством изучения 1 000 000 фотографий из Instagram (Phototrails) или исследовании изображений, созданных в Киеве во время политического кризиса и военных столкновений в 2014 году («The Exceptional and the Everyday: 144 Hours in Kyiv»). Мы также подготовили проект «On Broadway» – интерактивную инсталляцию, в которой Нью-Йоркский Бродвей представлен сквозь оптику 40 миллионов пользовательских изображений. Мы изучали современный любительский и полупрофессиональный контент, в частности, работали с 1 000 000 объектов, созданных 30 000 полупрофессиональных художников с проекта devianart.com. В настоящий момент мы проводим исследование массива данных, состоящего из 265 миллионов изображений, загруженных в твиттер по всему миру между 2011 и 2014 годами. Подытоживая, отмечу: мы не создаем границу между (небольшими по количеству и не частотными по появлению) исторически значимыми артефактами профессиональных культур и (большими) массивами цифрового онлайн-контента, созданного пользователями. Вместо этого мы свободно взаимодействуем с обеими категориями.
Matthew Arnold
Matthew Arnold. Culture and Anarchy (London: 1869).
Nadav Hochman, Lev Manovich, Jay Chow
Nadav Hochman, Lev Manovich, Jay Chow, Phototrails (2013).
Lev Manovich, Mehrdad Yazdani, Alise Tifentale, Jay Chow
Lev Manovich, Mehrdad Yazdani, Alise Tifentale, Jay Chow, The Exceptional and the Everyday: 144 hours in Kyiv (2014).
Daniel Goddemeyer, Moritz Stefaner, Dominikus Baur, Lev Manovich
Daniel Goddemeyer, Moritz Stefaner, Dominikus Baur, Lev Manovich, On Broadway (2014).
Полноразмерное изображение доступно здесь
Очевидно, что не каждый живущий на планете человек взаимодействует с социальными сетями, а специфика распространяемого контента зависит от социальной сети (например, селфи как феномен Instargam) - и может быть понята как «отличие» от прежде существовавших данных. Контент конструируется посредством инструментов и интерфейсов приложений, разработанных для его создания, редактирования и шэринга (например, см. функционал фильтров в Instagram или приложений для создания коллажей, разработанных сторонними компаниями – вроде InstaCollage). Типы доступного нам культурного и социального поведения определяются посредством этих технологий. Например, вы можете «лайкать», «шэрить», комментировать фрагменты контента в социальных сетях. Другими словами, как и в квантовой физике, используемый инструментарий вполне может повлиять на феномен, который вы планируете изучать. Эти наблюдения должны обязательно учитываться при работе с пользовательским контентом и сетевой активностью. Несмотря на то, что API социальных сетей позволяют относительно легко получить доступ к огромному количеству контента, полученные данные вовсе не оказываются «всем, что создано всеми». API – Application User Interface – или программный интерфейс приложения.
Примечание
Инструмент, позволяющий свободно загружать массивы пользовательского контента из баз крупных социальных сетей. Работы в рамках компьютерных наук (в области изучения контента) построены на использовании API как инструмента для загрузки данных, планируемых к изучению
3.

Общее и частное.

Когда гуманитарные науки обращались к «небольшим данным» (артефактам, созданным одним автором или небольшой группой), предлагаемый социологией подход к изучению и интерпретации явлений оказывался лишь одним из возможных — если только вы не были марксистом. Однако, как только мы начали исследовать онлайн контент и взаимодействия миллионов людей, использование социологического подхода стало почти неизбежностью. В случае с «большими культурными данными», собственно культурный и социальный модусы оказались тесно переплетены. Большие группы людей из разных стран с разным социально-экономическим бэкграундом (ракурс рассмотрения проблематики, характерный для социологии) делятся изображениями, видео, текстами, и, таким образом производят определенный эстетический выбор (а здесь очевидно «гуманитарное» прочтение проблем). Во многом из-за этого тесного сплетения и даже наложения двух эпистемологических перспектив исследовательские вопросы соответствующей гибридной области, социологии культуры XX века (наиболее влиятельный представитель дисциплины — Пьер Бурдье), напрямую связаны с культурной аналитикой.

С учетом того, что некоторые демографические категории считаются само собой разумеющимися при исследовании общества, сегодня категоризация и сравнение сообществ в рамках социальных, экономических и культурных характеристик кажутся естественным. Например, Pew Research Center регулярно фиксирует статистику использования наиболее популярных социальных онлайн-платформ, формируя пользовательскую подборку в рамках таких демографических категорий как «пол/гендер», «этническая группа», «возраст», «образование», «доход» и «место жительства» (город/пригород/деревня). И если нас интересуют разнообразные особенности пользовательской активности в социальных медиа — например, типы картинок и образов, отмеченных как «понравившиеся» («like») и расшаренные («share»), сведения об использованных фильтрах для обработки фотографий или позах, принимаемых для снимков в жанре селфи — логично изучать разницу в реализации такой активности у пользователей в контексте отличий национального, этнического, социально-экономического контекстов и уровней владения технологиями. В ранних исследованиях в области социального компьютинга такого внимания к контекстам не наблюдалось, даже в некоторых современных работах не учитывается эта «множественность» — в результате аналитики работают не с реальным опытом пользователей, а с конструктом, недифференцированным человеческим ресурсом. Пожалуй, сейчас мы все же можем встретить публикации, в которых присутствуют демографические категории анализа. Это правильный шаг, но даже в этом случае нам надо быть внимательными при обращении к этим категориям. Гуманитарные исследования культурных феноменов и практик, проводимые при помощи количественных методов, не должны быть редуцированы к самым вульгарным и устаревшим методам социологии, основанным, например, на выделении только общих и наиболее типичных характеристик поведения изучаемых групп.
Pierre Bourdieu
Pierre Bourdieu, Distinctions. A Social Critique of the Judgment of Taste.
Pew Research Center
Pew Research Center, «Demographics of Key Social Networking Platforms» January 9, 2015.
Другими словами, мы можем совмещать проблематику социальных наук (и наук вообще, science), работающих с категориями «общего» и «обыденного», «повторяющегося», с логикой гуманитарных исследований, представители которых фокусируются на изучении «индивидуального» и «частного».
Социологическая традиция строится на поиске и описании общих, во многом шаблонных сценариев поведения, а не на анализе или прогнозировании поведения в частных случаях. Культурная аналитика также работает с моделями, которые можно «экстрагировать» из массивов культурных данных. Однако в идеале мы стремимся к тому, чтобы анализ больших массивов данных приводил к пониманию частных случаев, т.е. к работе с индивидуальными акторными практиками создания культурных артефактов и соответствующей пользовательской активностью. Например, компьютерный анализ всех снимков, сделанных фотографом на протяжение карьеры, может указать на выделяющиеся из общей выборки, «другие», результаты, т.н. выбросы – фотографии, наиболее отличающиеся от всех остальных. Таким же образом мы можем анализировать миллионы фотографий из Instagram, созданных людьми из самых разных городов, чтобы смоделировать типичные для каждого города образы (этот пример напрямую связан с нашим актуальным проектом).

Другими словами, мы можем совмещать проблематику социальных наук (и наук вообще), работающих с категориями «общего» и «обыденного», «повторяющегося», с логикой гуманитарных исследований, представители которых фокусируются на изучении «индивидуального» и «частного». В конце концов, все великие художники были теми самыми статистическими «другими» в сравнении со своими коллегами-современниками, иначе бы их творческий путь и его результаты никак не были бы отражены в исторических источниках. Приведенные выше примеры анализа культурных данных посредством обращения к «уникальному» контенту демонстрируют лишь один из возможных способов работы с информацией.
4.

Наука о культуре (science of culture).

Сейчас наука включает несколько фундаментальных подходов к изучению и пониманию феномена социального взаимодействия – детерминистские законы, статистическое и машинное моделирование – но какой из подходов следует использовать в рамках науки культуры?
Целью науки (особенно в ее техническом изводе) становится объяснение феномена и сопровождение этого понимания простыми математическими моделями, описывающими принципы функционирования явления. Три закона Ньютоновой физики – отличный пример того, как классическая науки добивалась поставленной цели. Однако с середины XIX века ряд научных областей освоил новый вероятностный подход. В качестве примера можно привести теорию распределения газов Максвелла, представленную в 1860г. Как же обстоит дело с социальными науками? На протяжении XVIII-XIX вв. многие мыслители ожидали, что в скором времени, вслед за инновациями в области физики, наконец будут открыты количественные законы, описывающие общественную жизнь. Этого так и не случилось. Пожалуй, ближе других к описанию объективных законов существования общества подошел Карл Маркс. В результате в конце XIX – начале XX века возник диалог позитивизма и социальных наук, выразившийся в разработке вероятностного подхода к изучению общественных феноменов. Вместо поиска детерминистских законов, которые смогли бы отобразить общество как устойчивую систему, обладающую определенными «регулярностями», имеющими общий характер, социальные исследователи работали в соответствии с иными интенциями. Применяя разнообразные статистические методы, они сосредоточили свое внимание на анализе корреляции между измеряемыми категориями, а также моделировании взаимосвязей «зависимых» и «независимых» переменных.

На смену детерминистской и вероятностной научных парадигм через некоторое время пришла парадигма компьютерного моделирования, ставшая возможной благодаря созданию компьютерных моделей, имитирующих поведение социальных систем. Первая крупномасштабная компьютерная модель, сконструированная для демонстрации ядерного взрыва, была создана в 1940-х годах в рамках Манхэттенского проекта. Впоследствии стратегии моделирования стали использоваться в рамках многих естественно-научных исследований, а в 1990-х года появились в арсенале и социальных наук.

В начале XXI века объемы цифрового онлайн-контента и уровень пользовательской активности позволяют нам задуматься о возможной «науке культуры» (науке о культуре). Например, известно, что к лету 2015 года количество ежедневных интеракций в Facebook достигло следующих цифр: пользователи делятся 400 миллионами изображений и отправляют 45 миллиардов сообщений. Конечно, такая концентрация контента все еще количественно существенно ниже, чем, например, показатели по количеству атомов и молекул в 1 см3 воды, в котором содержится 3.33 *1022 молекул. Однако она существенно превышает количество нейронов в нервной системе среднестатистического взрослого, равное 86 миллионам. Сейчас наука включает несколько фундаментальных подходов к изучению и пониманию феномена социального взаимодействия – детерминистские законы, статистическое и машинное моделирование – но какой из подходов следует использовать науке о культуре?
Philip Bal
Philip Ball, Critical Mass (London: Arrow Books, 2004): 69-71
Прим. ред
Распределение вероятности, которое на западе принято называть «Maxwell–Boltzmann distribution» - прим. ред
Если посмотреть работы из области компьютерных исследований, которые связаны с анализом медийных данных, станет ясно, что они используют статистический подход. Они описывают данные из социальных сетей и пользовательскую активность с точки зрения вероятности. Такая работа подразумевает создание экспертом статистических моделей – например, математических уравнений, с помощью которых можно определить отношения между переменными величинами. Последние, в свою очередь, скорее могут быть описаны при помощи вероятностных законов, нежели посредством конкретных значений. В большинстве современных исследований используется т.н. машинное обучение, при котором автоматически создаются модели, способные классифицировать или предсказывать значения новых данных при помощи уже существующих примеров. В обоих случаях модель позволяет обрабатывать только часть данных, что типично для статистического подхода.

Специалисты в области компьютерных исследований работают со статистикой не так, как социальные исследователи. Последние стараются объяснить социальные, экономические или политические феномены (например, влияние семьи на образование ребенка). Представители компьютерных наук в основном не занимаются объяснением паттернов в рамках социальных медиа, которые они обнаруживают благодаря обращению к внешним социальным, экономическим или техническим факторам. Вместо этого они обычно анализируют социальный феномен изнутри или стараются представить явление экстерналистски, при помощи данных, извлеченных из социальных сетей. Примером первой стратегии выступает статистическое определение количества «favorites» (аналог «лайков» как маркеров пользовательского одобрения), которые может в среднем получить фотография в социальной сети Flickr за определенный период. Пример второй стратегии – сервис Google Flu trends, который предсказывает распространение гриппа посредством совмещения данных поисковой машины и официальных данных CDS (U.S. Centers for Disease Control and Prevention).
Прим. автора
Исследователи из области компьютерных наук сравнительно недавно разработали такие методы как data-mining и машинное обучение, которые не были известны статистике XX века. Я подробно анализирую эти различия в статье "Data Science and Digital Art History" International Journal for Digital Art History, issue 1 (2015).
Как же насчет «больших данных»? Неужели они не отсылают к новой научной парадигме, оснащенной собственными исследовательскими методами?
Разница между строгими детерминистскими законами и недетерминистскими, стохастические моделями заключается в том, что последние описывают возможности. Законы классической механики применимы к любым макроскопическим объектам. И, напротив, вероятностная модель, прогнозирующая количество «избранных» фотографий во Flickr в зависимости от времени с момента загрузки, не может нам показать точное количество соответствующих отметок применительно к одной конкретной фотографии. Она всего лишь свидетельствует об общей тенденции. Кажется, этот метод подходит для «науки о культуре». Ведь если мы станем в качестве объяснения антропологических и культурных практик применять детерминистские законы, останется ли в наших исследованиях место «погрешности» в виде реализации идеи свободной воли? Даже в случае с, казалось бы, почти автоматическим, нерефлексируемым культурным поведением (например, люди «лайкают» определенные фотографии в социальных сетях: снимки красивых пейзажей, милых животных, позирующих девушек), мы не собираемся редуцировать возможности человека до простой, механической и машинной по своей сути практики трансляции мемов.

Современное внимание к вероятностным моделям исследований в процессе изучения онлайн взаимодействий не учитывает наличие третьей научной парадигмы – моделирования. Насколько мне известно, она так и не была рассмотрена и протестирована как инструмент анализа пользовательского контента (популярных тем, особенностей изображений и т.д.) ни полем социального компьютинга, ни цифровыми гуманитарными науками. Если в IBM Almaden Research Center еще в 2009 году смогли смоделировать зрительную область коры человеческого головного мозга с использованием 1,6 миллиардов нейронов и 9 триллионов синапсов, почему бы нам не задуматься, например, о создании подобной модели всего контента, ежегодно создаваемого пользователями Instagram? Или всего контента, который распространяют пользователи ключевых социальных сетей? Или почему не сконструировать модель, описывающую все особенности изображений, которыми делятся пользователи? Важно, что смысл такой модели не сводится к созданию ясного и окончательного объяснения феномена или точному прогнозированию того, чем люди будут делиться в соцсетях в следующем году. Понимание сути применения этой научной парадигмы можно почерпнуть из книги «Simulation for the Social Scientist», в которой авторы поясняют: цель моделирования в том, чтобы «обеспечить лучшее понимание некоторых особенностей социального мира». Моделирование, таким образом, можно использовать как «метод развития теории» (выделение мое – ЛМ.) Итак, в виду того, что компьютерная симуляция требует создания точной и ясной модели явления, размышления о том, как именно можно моделировать культурные процессы, способствует развитию более тщательно простроенных теорий, чем те, которыми мы пользуемся сейчас. В качестве примера можно обратиться к проекту «War, space, and the evolution of Old World complex societies», в рамках которого для исследования особенностей развития сообществ использовалось т.н. агентное моделирование.

Как же насчет «больших данных»? Неужели они не отсылают к новой научной парадигме, оснащенной собственными исследовательскими методами? Это сложный вопрос, заслуживающий отдельной статьи. Если мы говорим об исследовательских методах и практиках, то развитие компьютерного аппаратного обеспечения в 2000-е гг. (увеличение скорости работы центрального процессора, объемов RAM, улучшение графических процессоров и работы кластеров) имело большее значение, чем формирующаяся доступность крупных массивов данных. И хотя использование машинного обучения применительно к массивам данных достигло серьезных успехов, в большинстве случаев оно не обеспечивает понимание феноменов. Тем не менее, резюмируя, я хотел бы упомянуть один интересный (в том числе для гуманитарных исследований) концепт, который мы одолжим у аналитики данных и, немного пересмотрев, пустим в обращение заново.
Nigel Gilbert and Klaus G. Troitzsch
Nigel Gilbert and Klaus G. Troitzsch, Simulation for the Social Scientist, 2nd edition (2005): 3-4
Peter Turchina,Thomas E. Currieb, Edward A. L. Turnerc, Sergey Gavriletsd
Peter Turchina,Thomas E. Currieb, Edward A. L. Turnerc, Sergey Gavriletsd, "War, space, and the evolution of Old World complex societies," PNAS October 8, 2013, vol. 110, no. 41: 16384-16389
Цель такого анализа «широких данных» заключается не в том, чтобы обнаружить новые общности, подобия или связи среди бесконечной вселенной культурных артефактов.
В XX социальные науки функционировали на основе обработки т.н. «длинных данных» (количество кейсов обычно в разы превышает количество переменных). Например, представьте, что мы опросили 2 000 человек, фиксируя их доход, семейные достижения в образовании и количество лет, потраченное на учебу. В результате у нас есть 2000 кейсов и всего 3 измеряемые переменные. Мы можем проанализировать связи между переменными или посмотреть, как данные можно «сгруппировать», а можем прибегнуть к другим типам статистических исследований.

Зарождение социальных наук характеризуется наиболее яркими асимметриями такого рода. Первый социолог-позитивист – Карл Маркс – предпочитал делить человечество всего на два класса: тех, кто обладает средствами производства, и тех, кто их лишен, т.е. на капиталистов и пролетариат. Немного позже социологи добавили другие маркеры «классификации» и «разделения». Сегодня их можно обнаружить во множестве опросов, исследований и отчетов как в популярных медиа, так и в академических статьях. Обычно эти разделения манифестированы через категории пола (или гендера), расы, этнической принадлежности, возраста, уровня образования, дохода, места жительства, религии и некоторых других категорий (список переменных/характеристик опционален и варьируется от исследования к исследованию). Но, независимо от деталей и различий, собранные, проанализированные и проинтерпретированные данные остаются «длинными». Большие массивы данных, фиксирующие опыт большого количества людей, по-прежнему описываются небольшим количеством переменных.

Почему об этом важно размышлять? В пространствах компьютерного анализа медиа и компьютерного зрения (computer vision), исследователи используют алгоритмы для извлечения тысяч особенностей из каждой фотографии, видео, твитта, электронного письма и т.д. Так, например, хотя творчество Винсента ван Гога насчитывает около 900 работ, оно может быть описано посредством тысяч отдельных показателей. Мы вообще можем описать каждого жителя города посредством миллионов разных и отдельных переменных, благодаря возможности экстрагировать все особенности (поведения, репрезентации, практик) из наблюдения за интеракциями и, шире, поведением в социальных сетях. Похожая интенция лежит в основании нашего проекта «On Broadway», в котором Манхэттенский Бродвей представлен посредством 40 миллионов фрагментов данных: изображений, постов, чек-инов – всей информации, которой делились пользователи в Twitter, Instagram и Foursquare на всем протяжении улицы. Также мы использовали информацию о передвижении такси и показатели U.S. Census из ближайших районов.

Другими словами, «длинным» данным мы вполне можем предпочесть «широкие». Такой подход позволяет обрабатывать выборки при помощи потенциально бесконечного количества переменных. Заметим, что если количество переменных преобладает, полученные результаты (как репрезентация социальных процессов или явлений) могут не соответствовать общим принципам социальных наук и наук о данных. Последние, например, настаивают: большое количество переменных становится управляемым, когда к нему применяют процедуру снижения размерности (т.н. «dimension reduction»). Но для нас «широкие данные» означают возможность пересмотреть фундаментальные предположения о том: а) что такое общество и как его изучать и б) чем оказываются культура, карьера художника, структура изображений, сообщества со сходными эстетическими предпочтениями и т.д. Вместо того, чтобы изучать культурную историю при помощи одного измерения (например, времени), двух (скажем, времени и географического положения) или даже нескольких (медийности, принадлежности к жанру и т.д.), мы можем актуализировать целый спектр измерений и переменных. Цель такого анализа «широких данных» – не в том, чтобы обнаружить новые общности, подобия или связи среди бесконечной вселенной культурных артефактов. В первую очередь работа с таким образом проблематизируемыми данными позволит подвергнуть сомнению сложившиеся и, возможно, редуцированные представления относительно тех или иных явлений, которые раньше определялись посредством соответствия весьма ограниченному набору показателей. По сути в этом акте обновления специфики данных мы имеем дело с ключевым для культурной аналитики методом – остранением как практикой, способствующей «другому», расширяющему границы привычного, пониманию базовых концептов культуры и способов представления данных этого пространства. Используя данные и технологии, мы можем задать следующие сложные вопросы: как мы мыслим, что мы видим и понимаем, в конце концов, что значит действовать в соответствии с собственными представлениями.
Прим. автора
Я использую термин "длинные данные" иначе, чем это делает Сэмюэль Эмберсман (Samuel Abresman) в статье "Stop Hyping Big Data and Start Paying Attention to 'Long Data'," wired.com, 1/29/2013.
Прим. автора
Я подробно объясняю причину использованию большого количества особенностей в работе "Data Science and Digital Art History."
Шкловский В. Б.
Тетива: О несходстве сходного. — М.: Советский писатель, 1970. — С. 230
5.

Благодарности

Я благодарен моим коллегам из областей компьютерных исследований и цифровых гуманитарных наук за проведенные за эти годы дискуссии. Я также благодарен студентам, аспирантам и исследователям, которые работали в нашей лаборатории с 2007 года и которые многому меня научили. Наша работы была щедро поддержана следующими организациями: The Andrew Mellon Foundation, National Endowment for the Humanities, The National Science Foundation, National Energy Research Scientific Computing Center (NERSC), The Graduate Center, City University of New York (CUNY), California Institute for Telecommunications and Information Technology (Calit2), University of California – San Diego (UCSD), California Humanities Research Institute, Singapore Ministry of Education, and Museum of Modern Art (NYC).