Дата-проекты — долгосрочные вложения

В 2011 году Макс Шремс из обычного венского студента превратился в символа борьбы за безопасность персональных данных. Он доказал, что Facebook, до этого открещивавшийся от обвинений, на самом деле хранит всю информацию о любых действиях пользователей в своей соцсети. В том числе удаленные файлы и комментарии. Макс затребовал свои персональные данные — ему выслали файл в формате pdf в 1200 страниц, которые он не поленился внимательно изучить.

Дата-проекты — долгосрочные вложения

Работа с цифрами в новостях

Далее «Работа с цифрами в новостях»

Работа с цифрами в новостях

Журналистика данных: 3 простых вопроса

Далее «Журналистика данных: 3 простых вопроса»

Журналистика данных: 3 простых вопроса

Примеры журналистики данных

Примеры дата-проектов, про которые рассказывает «Пособие по журналистике данных». Это материалы, которые были созданы на основе анализа данных. Часто в таких проектах речь об обработке огромного количества информации, цифр. И очень интересно, как СМИ визуализируют эти данные в материалах, какие сервисы используют для работы с таким количеством информации. Далее «Примеры журналистики данных»

Примеры журналистики данных

Журналистика данных с Google Refine

Журналистика данных! Чаще всего споры с коллегами о ее значимости заканчиваются выводом: постсоветская журналистика от западной отличается отношением именно к этому направлению.

Для нас – “советских” – всегда было важнее слово – красиво, образно описать. Для западной важнее было найти и откопать эксклюзивную информацию.

Журналистика данных для них и есть журналистика, для нас же она в какой-то степени стала откровением (вдруг стало понятно, что резонанс могут вызвать не красивые воззвания, а таблица с отчислениями пенсионных налогов детей чиновников, опубликованная вообще без каких-либо слов) и мы чаще, чем кто-либо говорим о появлении нового направления,  в котором можно себя проявить.

Чтобы заниматься журналистикой данных – нужен приличный запас терпения. Она не любит суеты. Зарыться в статистику, таблицы, графики, базы данных, кипу документов. В итоге после упорных трудов, оказывается, что ваши данные имеют неупорядоченный вид и в них очень сложно разобраться.

В сети есть множество сервисов, помогающих журналистам упорядочить необходимые данные. Сегодня расскажу о самом доступном  — Google Refine. Сервис очень популярный у наших западных коллег, но все еще мало развитый в наших странах. Я считаю, что это происходит по двум причинам:

  1. Закрытый доступ ко многим базам данных в наших странах.
  2. Неумение журналистов работать с базами данных и неумение искать  их в разных источниках.

Это сервис позволит очистить данные перед тем, как начать с ними работу и делать какие-либо выводы. Для начала вам нужно загрузить Google Refine по указанной инструкции.

Плюсы Google Refine, по мнению vmethods.ru

  • могут использовать люди без навыков программирования и работы с базами данных;
  • бесплатен;
  • запускается на любом компьютере, работает в браузере и использует интерфейс, похожий на Google Docs;
  • несмотря на то, что инструмент придуман Google, он работает автономно и не требует отправки данных в интернет;
  • куча полезных функций, включая историю изменений и их отмены, визуализацию характеристик данных; фильтры, кластеризацию, самые разные преобразования и использование простого языка выражений Google Refine Expression Language (GREL).

Программа совместима с Windows, Mac и Linux.

Как пользоваться?

Видеопособие по использованию Google Refine

Помимо видеопособия стоит изучить несколько обучающих программ, которые помогут начать работу с приложением. Refine также включает образцы наборов данных, что позволяет потренироваться в работе с программой.

На ijnet.org предлагают такую инструкцию:

“Создав имя для своего проекта, нажмите кнопку «Создать проект» и Google Refine отобразит ваши данные. Теперь вы можете приступать к работе над вашим проектом. Прежде всего вам стоит обратить внимание на то, что существуют различные способы форматирования одинаковой информации. Например, существует множество способов записи дат: 6 октября 2011, 6.10.2011 и т.д. То же самое касается и числовых и текстовых полей (D.C. можно записать как DC, District of Columbia, и т.д.).

Если одинаковая информация будет иметь различный формат, то при поиске закономерностей среди вашего набора данных вы получите неполные и, следовательно, недостоверные результаты, которые не смогут быть использованы в вашей статье.

Исправить это вы сможете при помощи текстовой или числовой функции Google Refine, которая объединяет идентичные ячейки и показывает вам, как часто они повторяются. Например, эта функция покажет вам, сколько полей содержат вариант DC, а сколько – District of Columbia.

Данная функция поможет вам установить, есть ли среди вашего набора данных одинаковые поля, записанные с помощью различных названий. 

Еще одна похожая интересная функция – «кластеризация» – находит группы ячеек с различными значениями, которые могут нести одинаковую информацию. 

Google Refine также дает вам возможность удалить лишние пробелы для получения более однородных данных. Хотя вы можете и не заметить лишний пробел в слове, он может стать проблемой при анализе данных. Вы можете избавиться от лишних пробелов при помощи функции «убрать лишние пробелы перед и после слов». 

Если вы сделаете ошибку при редактировании данных, вы можете легко ее исправить, отменив выполненное действие. Google Refine запоминает все изменения, сделанные вами в ходе работы, чтобы при необходимости вы могли легко вернуться назад”.

Примеры использования Google Refine

Проект интернет-газеты ProPublica «Доллары для докторов. Как деньги фармацевтической промышленности попадают в карманы ваших врачей». Собранная с помощью приложения Refine, она принесла редакции Пулитцеровскую премию.

Мультимедийный журналист Тасним Раджа, работающий в The Bay Citizen, хорошо представляет, как большинство журналистов пользуются данными в своей работе. “Многие люди идут в журналистику, потому что они не сильны в математике”, – говорит Тасним, –Когда речь заходит о статистике, они обнаруживают, что они погрузились в цифры и сложное программное обеспечение”.

Сам он пользуется Goggle Refine ежедневно. Инструмент, созданный для работы с “беспорядочной массой данных”, Раджа называет “поразительным”. Редакция The Bay Citizen пользовалась им, чтобы разработать поисковик велосипедных аварий, в котором были интегрированы данные из разных источников. Поисковик был удостоен множества медийных наград.

Помимо Google Refine в интернете вы найдете много других сервисов, помогающих работать с данными. Мы, доверившись мнению Раджи, предлагаем вам изучить и попробовать применить в работе следующие инструменты:

Tablesorter

Мистер Конвертер Данных

Geocommons

Журналистика данных с Google Refine

Infogr.am — визуализация и инфографика онлайн

Чем больше разработчики работают над этим сервисом — а он работает в формате бета-тестирования — тем больше он становится похож не просто на инфографический сервис, а на инструмент для создания мультимедиапроектов. Далее «Infogr.am — визуализация и инфографика онлайн»

Infogr.am — визуализация и инфографика онлайн