журналистика данных
Дата-проекты — долгосрочные вложения
В 2011 году Макс Шремс из обычного венского студента превратился в символа борьбы за безопасность персональных данных. Он доказал, что Facebook, до этого открещивавшийся от обвинений, на самом деле хранит всю информацию о любых действиях пользователей в своей соцсети. В том числе удаленные файлы и комментарии. Макс затребовал свои персональные данные — ему выслали файл в формате pdf в 1200 страниц, которые он не поленился внимательно изучить.
Работа с цифрами в новостях
Журналистика данных: 3 простых вопроса
Примеры журналистики данных
Примеры дата-проектов, про которые рассказывает «Пособие по журналистике данных». Это материалы, которые были созданы на основе анализа данных. Часто в таких проектах речь об обработке огромного количества информации, цифр. И очень интересно, как СМИ визуализируют эти данные в материалах, какие сервисы используют для работы с таким количеством информации. Далее «Примеры журналистики данных»
Журналистика данных с Google Refine
Журналистика данных! Чаще всего споры с коллегами о ее значимости заканчиваются выводом: постсоветская журналистика от западной отличается отношением именно к этому направлению.
Для нас – “советских” – всегда было важнее слово – красиво, образно описать. Для западной важнее было найти и откопать эксклюзивную информацию.
Журналистика данных для них и есть журналистика, для нас же она в какой-то степени стала откровением (вдруг стало понятно, что резонанс могут вызвать не красивые воззвания, а таблица с отчислениями пенсионных налогов детей чиновников, опубликованная вообще без каких-либо слов) и мы чаще, чем кто-либо говорим о появлении нового направления, в котором можно себя проявить.
Чтобы заниматься журналистикой данных – нужен приличный запас терпения. Она не любит суеты. Зарыться в статистику, таблицы, графики, базы данных, кипу документов. В итоге после упорных трудов, оказывается, что ваши данные имеют неупорядоченный вид и в них очень сложно разобраться.
В сети есть множество сервисов, помогающих журналистам упорядочить необходимые данные. Сегодня расскажу о самом доступном — Google Refine. Сервис очень популярный у наших западных коллег, но все еще мало развитый в наших странах. Я считаю, что это происходит по двум причинам:
- Закрытый доступ ко многим базам данных в наших странах.
- Неумение журналистов работать с базами данных и неумение искать их в разных источниках.
Это сервис позволит очистить данные перед тем, как начать с ними работу и делать какие-либо выводы. Для начала вам нужно загрузить Google Refine по указанной инструкции.
Плюсы Google Refine, по мнению vmethods.ru
- могут использовать люди без навыков программирования и работы с базами данных;
- бесплатен;
- запускается на любом компьютере, работает в браузере и использует интерфейс, похожий на Google Docs;
- несмотря на то, что инструмент придуман Google, он работает автономно и не требует отправки данных в интернет;
- куча полезных функций, включая историю изменений и их отмены, визуализацию характеристик данных; фильтры, кластеризацию, самые разные преобразования и использование простого языка выражений Google Refine Expression Language (GREL).
Программа совместима с Windows, Mac и Linux.
Как пользоваться?
Видеопособие по использованию Google Refine
Помимо видеопособия стоит изучить несколько обучающих программ, которые помогут начать работу с приложением. Refine также включает образцы наборов данных, что позволяет потренироваться в работе с программой.
На ijnet.org предлагают такую инструкцию:
“Создав имя для своего проекта, нажмите кнопку «Создать проект» и Google Refine отобразит ваши данные. Теперь вы можете приступать к работе над вашим проектом. Прежде всего вам стоит обратить внимание на то, что существуют различные способы форматирования одинаковой информации. Например, существует множество способов записи дат: 6 октября 2011, 6.10.2011 и т.д. То же самое касается и числовых и текстовых полей (D.C. можно записать как DC, District of Columbia, и т.д.).
Если одинаковая информация будет иметь различный формат, то при поиске закономерностей среди вашего набора данных вы получите неполные и, следовательно, недостоверные результаты, которые не смогут быть использованы в вашей статье.
Исправить это вы сможете при помощи текстовой или числовой функции Google Refine, которая объединяет идентичные ячейки и показывает вам, как часто они повторяются. Например, эта функция покажет вам, сколько полей содержат вариант DC, а сколько – District of Columbia.
Данная функция поможет вам установить, есть ли среди вашего набора данных одинаковые поля, записанные с помощью различных названий.
Еще одна похожая интересная функция – «кластеризация» – находит группы ячеек с различными значениями, которые могут нести одинаковую информацию.
Google Refine также дает вам возможность удалить лишние пробелы для получения более однородных данных. Хотя вы можете и не заметить лишний пробел в слове, он может стать проблемой при анализе данных. Вы можете избавиться от лишних пробелов при помощи функции «убрать лишние пробелы перед и после слов».
Если вы сделаете ошибку при редактировании данных, вы можете легко ее исправить, отменив выполненное действие. Google Refine запоминает все изменения, сделанные вами в ходе работы, чтобы при необходимости вы могли легко вернуться назад”.
Примеры использования Google Refine
Проект интернет-газеты ProPublica «Доллары для докторов. Как деньги фармацевтической промышленности попадают в карманы ваших врачей». Собранная с помощью приложения Refine, она принесла редакции Пулитцеровскую премию.
Мультимедийный журналист Тасним Раджа, работающий в The Bay Citizen, хорошо представляет, как большинство журналистов пользуются данными в своей работе. “Многие люди идут в журналистику, потому что они не сильны в математике”, – говорит Тасним, –Когда речь заходит о статистике, они обнаруживают, что они погрузились в цифры и сложное программное обеспечение”.
Сам он пользуется Goggle Refine ежедневно. Инструмент, созданный для работы с “беспорядочной массой данных”, Раджа называет “поразительным”. Редакция The Bay Citizen пользовалась им, чтобы разработать поисковик велосипедных аварий, в котором были интегрированы данные из разных источников. Поисковик был удостоен множества медийных наград.
Помимо Google Refine в интернете вы найдете много других сервисов, помогающих работать с данными. Мы, доверившись мнению Раджи, предлагаем вам изучить и попробовать применить в работе следующие инструменты:
Infogr.am — визуализация и инфографика онлайн
Чем больше разработчики работают над этим сервисом — а он работает в формате бета-тестирования — тем больше он становится похож не просто на инфографический сервис, а на инструмент для создания мультимедиапроектов. Далее «Infogr.am — визуализация и инфографика онлайн»
Дата-журналистика. Необходимые навыки
Прежде чем начинать работу в дата-журналистике, прочтите о том, какие именно навыки вам понадобятся и какие испытания вас ожидают.
- Журналистика данных требует знания основных тем, как правило, находящихся за пределами внимания традиционной журналистики. Вам нужно знать, как работает государственное управление, как интерпретировать законы, указы и постановления. Если журналист не знает принципов работы учреждений в своей собственной стране, его карьера в журналистике данных быстро зайдет в тупик.
- Свободное владение английским языком. Большинство наиболее часто используемых инструментов дата-журналистики доступны только на английском языке. На данный момент разрыв между журналистами, которые благодаря своим языковым навыкам могут воспользоваться всеми ресурсами дата-журналистики, и журналистами, которые, в силу отсутствия этих навыков, не могут, огромен.
- Навыки онлайн поиска. Недостаточно просто использовать обычный поиск в Google. Вам необходимо воспользоваться преимуществами расширенного поиска по формату, по теме и по дате. Кроме того, так как государства не спешат выкладывать данные в открытом доступе, нужно знать, какие официальные сайты хранят данные.
- Навыки создания электронных таблиц. Журналисты должны знать, как обрабатывать числа в Excel или аналогичных программах.
- Знания математики, а также описательной статистики и статистики вывода. Журналист, страдающий фобией чисел, обязательно столкнется с проблемами при анализе государственного бюджета, налогов или таких тем, как преступность и загрязнение окружающей среды.
- Обучение навыкам дата-журналистики – это, в основном, самообучение. Ни одна мировая школа журналистики, за редким исключением, не преподает журналистику данных, так что вам придется учиться на практике.
- Проекты могут быть трудоемкими и дорогостоящими. Вам придется иметь дело с десятками, если не сотнями или даже тысячами форм, текстов и графиков. Иногда вам даже придется стать на время программистом, чтобы разработать приложения, позволяющие собирать данные с вебстраниц.
- Помните о трех основных частях, из которых состоят репортажи журналистики данных. В дополнение к сюжету, репортаж должен предоставить читателям справочные документы, объяснить методику сбора данных так, чтобы работа была оценена экспертами, а также адекватно иллюстрировать данные.
- Помните, что вам далеко не всегда удастся найти то, что вы ищете. Вам придется прочитывать тонны записей, горы документов и делать звонки, на которые никто не отвечает, в попытке открыть двери, которые могут так и остаться закрытыми. Иногда из данных невозможно сделать историю, хотя это случается и нечасто.
Теперь, когда вы узнали о худших сторонах дата-журналистики, вам лучше подготовиться к испытаниям, которые ждут вас впереди. Удачная работа в дата-журналистике – это хороший показатель успеха, так как в этом виде журналистики добиваются высот не те, кто обладает хорошими связями, удачей и блестящим умом, но те, кто обладает упорством и настойчивостью. В этом разница между журналистикой данных и традиционной журналистикой.
Оригинал статьи опубликован на испанском языке в газете La Nación Data. Источник: IJNet.org, Публикуется с разрешения сайта IJNet.org.