Студенти-журналісти зараз вивчають курс «Журналістика даних». В його рамках публікуємо статтю, розміщену в Tableau – системі інтерактивної бізнес-аналітики.
Примітка: Ця стаття включає уривки із серії статей Енді Котгріва: Частини 1 — оцінка діаграм за цілий рік COVID-19; Частини 2 — розгляд діаграм, як пандемія прискорила свій вплив; та Частини 3, що підсумовує ключові отримані діаграми та уроки щодо передачі даних.
COVID-19 змінив світ за останні 12 місяців. Передача даних була центральною частиною пандемії. Я хочу поміркувати над тим, що, на мою думку, є найважливішими уроками, які ми можемо взяти з цього періоду. Багато разів дані були центром історії. Я обрав вісім прикладів минулого року, кожен з яких відкриває один ключовий урок, який повинен взяти кожен, хто намагається розвити кращу культуру роботи з даними.
Давайте уважно розглянемо їх та відповідні ідеї щодо комунікації даних:
- Не чекайте ідеальних даних для того, щоб почати аналіз;
- Діліться знахідками та постійно покращуйте дизайн;
- Знайте, що дані можуть змінити поведінку;
- Розгляньте використання побічних даних, оскільки складні показники потребують поступового запровадження;
- Зробіть дані особистими та прозорими;
- Розмова, що базується на даних, вимагає навичок грамотності даних;
- Не намагайтеся зменшити складні дані до одного показника;
- Не бійтеся шукати дані.
1. Не чекайте ідеальних даних для того, щоб почати аналіз
Університет Джона Хопкінса вперше опублікував свою інформаційну панель Covid 22 січня 2020 року. Метою було забезпечити зручний інструмент для громадськості, дослідників та політиків. Збір даних був несистемним і трохи ненадійним: оновлення здійснювалися вручну, інформацію брали з Twitter, електронних листів та сайтів новин. Однак, на той час, будь-які дані були кращими, ніж їх відсутність.
З часом збір даних вдосконалювався та автоматизувався. Інформаційні панелі ніколи не є закінченими; вони повинні еволюціонувати по мірі того, як вдосконалюються дані та змінюються питання. Спочатку та інформаційна панель університету була грубим, неточним інструментом, однак кількість відвідувачів (200 мільйонів на день у січні 2020 року) вказувала, як під час майбутньої пандемії будуть керуватися даними.
2. Діліться знахідками та постійно покращуйте дизайн
З розвитком пандемії, для людей є природним порівнювати свою країну з іншими. Статичні подання даних Джона Хопкінса не забезпечували розповіді, яку хотіла знервована світова громадськість. Думки Джона Борн-Мердока привели його до того, що він подавав діаграми безпосередньо до глобальної аудиторії через Twitter і обмінювався оновленими поданнями даних щоденно протягом шести тижнів поспіль. Коли йому потрібно було ще раз зробити свою роботу, він це робив.
У Twitter він знайшов аудиторію, яка брала участь, опитувала та обговорювала дані. Його щоденні оновлення викликали тисячі коментарів та виняткові рівні залучення. Джон представив візуалізації, з якими люди раніше не стикалися: на осі х замість звичайної шкали часу відображалися етапи (кількість днів після певної кількості випадків), в той час як на осі у використовувалася логарифмічна шкала. Як ми дізналися, логарифмічні шкали важливі для відстеження експоненціального зростання, але мають сенс і з точки зору естетики, про що Джон пояснює в інтерв’ю Джейсону Форесту.
Що я виніс з цих діаграм:
- Розмови, інформовані даними— потужні: К березню розповідь була зосереджена на порівнянні країни з країною. У той час більшість європейських країн порівнювали себе з Італією, яка мала найсерйозніший спалах. Твіти Джона отримали тисячі відповідей, що є ознакою здорової, захоплюючої розмови на основі даних.
- Постійно напрацьовуйте, щоб знайти найкраще формулювання даних: Останній твіт Джона, від 25 квітня 2020 року, дуже відрізнявся від першого. Його діаграми еволюціонували, а здорова культура, керована даними, процвітає за умови постійних напрацювань. Кожна модифікація додавала нові нюанси в історію та краще розуміння для різних аудиторій, і Джон реагував. Уявіть собі діаграми у власній організації: чи не стали б вони краще, якби еволюціонували, відображаючи те, як Ви аналізуєте і нові дані?
3. Знайте, що дані можуть змінити поведінку
Сфера візуалізації даних часто стикалася зі складним питанням: «Звичайно, діаграми чудові, але чи можете ви показати мені приклад, коли візуалізація даних змінила поведінку?» Раніше ми спирались на історичні приклади, щоб довести зміни (наприклад, Флоренс Найтінгейл), але тепер ми маємо сучасні приклади, які показують, що дані змінюють поведінку.
«Згладжування кривої», абстрактне подання наслідків різних рівнів карантинних обмежень, спричинило найбільші зміни поведінки, за час нашого життя — особливо в Північній Америці та Європі, де в дійсності не було досвіду надзвичайно заразних хвороб. Настільки звичні зараз такі поняття як соціальне дистанціювання, експоненціальне зростання та локдауни (блокування), були невідомими на початку 2020 року. Графіки “Згладжування кривої” чітко демонстрували, чому необхідні зміни, а приклад від Washington Post і стаття Гаррі Стівенса були особливо переконливими, оскільки використовували захоплюючу анімацію для передачі критичних деталей громадськості.
Я взяв інтерв’ю у Гаррі Стівенса для «Якщо дані можуть говорити» і запитав, як він прийшов до цих ідей та чому ця діаграма була настільки успішною.
4. Розгляньте використання побічних даних, оскільки складні показники потребують поступового запровадження
До квітня минулого року ми дізналися, що точно підрахувати смертність від COVID-19 було проблематично. Недостатній підрахунок ризикує применшити ситуацію і ускладнює порівняння країн. Ми звернулися до “надмірної смертності” як до способу виявити проблему. Цей показник порівнює фактичну смертність із довготривалою середньою смертності за певний період.
Економіст висвітлив це 4 квітня 2020, а 16 квітня створив сторінку довгострокового моніторингу. Уроки, які я взяв із зміни метрик та діаграм:
- Коли неможливо відстежити щось безпосередньо, шукайте інші (побічні) показники. Діаграми надлишкової смерті з’явилися, коли світ шукав більш точної інформації про тяжкість пандемії. Багато країн не могли точно повідомити цифри стосовно COVID-19, але мали надійну статистику смертності. Знайшовши інші непрямі набори даних, на основі яких можна будувати висновки, стало можливим виміряти надлишкову смертність, спричинену пандемією.
- Нова метрика вимагає детального пояснення. Ранні надлишкові діаграми смертності (вище) від The Economist були складними, з детальним поясненням. Коли Ед Конвей представив подібні діаграми на Sky News, пішло п’ять хвилин, щоб пояснити всі ці цифри (наприклад, очікувана смертність, смерті, що приписують COVID-19, тощо). Якщо вам доведеться представляти аудиторії нові типи даних, виділіть час, щоб допомогти їй це зрозуміти.
- Для звичних даних складні діаграми можна спростити. Сторінка The Economist перетворилася на простішу таблицю з набагато більшою щільністю інформації. Коли дані знайомі аудиторії, можна спростити ваше представлення даних, щоб зосередитись на ключових показниках.
5. Зробіть дані особистими та прозорими
Пандемія в 2020 році продовжувалася, і люди перейшли від роздумів про те, що відбувається на національному рівні, до того, що відбувається на місцевому рівні. Які дії я повинен зробити, щоб допомогти своїй громаді і як я можу бути в безпеці? Це були головні запитання. На цей момент глобальні та національні ключові показники ефективності були більш безглуздими; людям потрібні були дані, що відповідають їх діяльності.
Одночасно з цим дедалі важливішим було те, як складались політики, і зростали аргументи щодо прозорості. Інформаційна панель COVID-19 в Джорджиї зіткнулася з деякими суперечками зі звинуваченнями стосовно оманливих даних, неправильного вибору дизайну, суперечливих цифр та проблем з прозорістю. У цьому звіті The Atlantic було роз’яснено проблему та підкреслено, що довіра до даних може бути досягнута лише завдяки прозорості даних.
З іншої ж сторони, були і успішні приклади персоналізованих даних яким можна довіряти: Covid Tracking Project, ProPublica та El Paso School District.
6. Розмова, що базується на даних, вимагає навичок грамотності даних
В інтерв’ю Джонатану Свону з Аксіоса колишній президент Дональд Трамп використовував друковані діаграми, щоб посперечатися, що COVID-19 був не таким поганим, як повідомляли ЗМІ. Цей обмін виявив дві базові помилки грамотності даних. По-перше, Трамп неправильно зрозумів дані COVID-19, що лежать в основі. По-друге, він неправильно інтерпретував діаграми. Як наслідок, розмова була не надто інформативною, і підкреслила важливість грамотності даних як базових знань.
Ви, ваші колеги, керівники, та ваша команда, всі повинні мати більше розуміння даних, та як вони використовуються для формування висновків. Якщо навмисно чи через незнання ми неправильно інтерпретуємо те, що показують наші дані, ми не можемо перейти до прийняття кращих рішень у майбутньому.
7. Не намагайтеся зменшити складні дані до одного показника
Критикуючи відсутність шляху з національних карантинних обмежень, депутат-консерватор Великобританії Джейк Беррі вимагав від свого уряду надати чіткі дані про прогрес запобігання поширенню COVID-19. Все йшло добре, поки він не запропонував в якості рішення збір коштів, з візуалізацією у вигляді термометра. Справді? Зменшити надзвичайно складну ситуацію, що швидко рухається, до одного числа? Немає якогось одного числа, яке могло б врахувати різні нюанси, яким би привабливим не було бажання його мати. Я закликаю вас подумати: яке єдине число можна використати в цьому форматі, щоб допомогти громадськості побачити шлях із обмежень COVID-19? Я задав Джейку те саме питання, але відповіді не отримав. На щастя, найновіший підхід уряду Великобританії «дані, а не дати» розглядає кілька значень, щоб прийняти рішення про пом’якшення обмежень.
Щоб дізнатися, чому заклик Беррі був наївним, і як ділові дані можуть потрапити в ту ж пастку, я настійно рекомендую Тиранію метрик Джері Мюллера. Крім того, я писав більше на цю тему в Computer Weekly.
8. Не бійтеся шукати дані
Як зазначалося раніше, початок пандемії виявив відсутність даних. Замість того, щоб чекати покращення офіційних наборів даних, журналісти The Atlantic підготували власні дані COVID-19, які переросли у проект Covid Tracking. Його дані використовуються національними та місцевими органами в США, а їх API отримує майже два мільйони звернень щодня. Їх вплив — величезний і допоміг тисячам зрозуміти вплив пандемії. Ці дані навіть стали набором даних Covid перехідної команди президента Байдена після відмови у доступі до офіційних даних, якими користується Білий дім.
Щоб дізнатися більше про проект відстеження Covid, перегляньте мій запис Якби дані могли поговорити з Пітером Уокером
____________
Тепер, маючи важливу перспективу, ми краще розуміємо цінність та вплив цих діаграм та прикладів, а також можемо розглянути, як застосувати отримані уроки в майбутньому. Я хотів би почути, які уроки, на вашу думку, активісти даних винесли за рік з графіків стосовно COVID-19, або як ці приклади можуть надихнути вас на майбутнє поширення даних. Чи породжують вони інші важливі уроки? Прокоментуйте свої думки нижче або поділіться ними зі мною у Twitter.
Енді Котгрів
Переклад: Олег Василенко