З точки зору науковця 02.04 (Частина 1)

Автор: Пан науковець

Шановні читачі нашого улюбленого сайту! Насмілився дати розгорнуту відповідь, оскільки зачепили слова недовіри шановного пана yuris: «Те, що пишуть математики, фізики та інші науковці, що трохи розуміються на статистиці – не варте уваги» і «маніпулюють ними [даними] як кому подобається». Тут необхідно розставити крапки над «і».

По-перше, чому нормальний розподіл Гауса? Тому що він адекватно описує випадкові процеси природнього походження. З української вікіпедії читаємо, що «нормальний розподіл виникає тоді, коли дана випадкова величина являє собою суму великого числа незалежних випадкових величин, кожна з яких відіграє незначну роль в утворенні всієї суми» (на вікіпедію посилаюсь не тому, що інших авторитетних джерел немає, а тому що це загальновідомі істини, крім цього там є хороші ілюстрації). Й на наших зображеннях синя крива, подібна на карпатські гори, відображає щільність розподілу неперервної випадкової величини. Процес розповсюдження хвороби вірусного походження відповідає цій умові? Очевидно, що так.

У нашому випадку йдеться про ймовірність певного дня захворіти конкретній людини. А це вже дискретна випадкова величина, яку відображають на площині точками. Її значення визначають за кількістю хворих по відношенню до загальної кількості людей. Якщо беремо певну країну чи регіон з відомою кількістю населення, то можна не нормувати цю величину та обмежитися загальною кількістю хворих. На графіках це жовті точки, злучені для кращого сприйняття лініями. Можна рисувати стовпчики, але на них не так чітко видно характер зміни значення величини, оскільки око намагається прокласти криву посередині стовпчика.

Згодом у цей процес втручається людина, тобто виникає зовнішня дія, і тоді виникають певні відхилення від нормального розподілу. Тут варто передивитись переклади статей Tomas Pueyo, зроблені Антоном Сененко на сайті site.ua, де наведено багато цікавих графіків.

По-друге, чому жовті точки так стрибають? Одним з пояснень, на мій погляд, може бути таке: сьогодні не встигли запротоколювати чи пропустили випадки, завтра дорахували. Це нормально, коли медики, та й не тільки вони, працюють в екстремальних умовах. Навпаки, коли дискретні точки дуже точно лягають на неперервну криву, виникають підозри щодо втручання «спеціалістів» – майстрів статистичних маніпуляцій (див. графіки з російськими даними).

Але такі стрибки значно ускладнюють прогнозування, оскільки суттєво погіршують його точність. Математики підтвердять, що протабулювати, тобто обчислити з необхідною точністю можна будь-яку задану аналітично функцію, навіть дуже «криву». А розв’язати обернену задачу так легко не вдасться. Уявіть собі, що ви пересуваєте прямокутник заданої висоти, яка відповідає похибці по вертикалі, вздовж синьої кривої. Яка буде його найменша ширина на різних ділянках: на краях, на схилі, така, щоби в цей прямокутник вписалася відповідна частина синьої кривої?

Очевидно, що на краях прямокутник буде значно ширшим, ніж на схилах. Іншими словами, чутливість параметрів нормального розподілу до точності даних на краях, а в наших прикладах, це на початку спостережень, дуже висока. А ця дискретна величина – кількість людей, нагадаю, є натуральним числом. Звідси робимо висновок, чим точніше обчислено значення цієї величини за добу, а саме з найменшою абсолютною похибкою +/- 0.5 (вибачте, це математика), тим точніше за характером її зміни можна передбачити максимум ймовірності захворіти та час його настання.

(далі буде)

41 Comments on "З точки зору науковця 02.04 (Частина 1)"

  1. Massalitin Dmitriy | 02.04.2020 at 09:46 |

    https://politota.d3.ru/izvinite-ia-vykhodil-a-chto-za-1-den-sluchilos-1953588/ тут в комментах тоже обсуждают обработку статистики по вирусу. может что-то для себя интересное найдете

  2. Шановний пан науковець, з одного боку, жаль, що Ви сприйняли мої слова, як випад на Вашу адресу, з іншої – добре, що це спонукало Вас продовжити своє дослідження 🙂

    В більш ранньому коменті, до речі, я писав про проблему неповноти данних, і уточнював, що в “кращому разі дослідники використовують методи наближених оцінок, індукцію, тощо (я тут мав на увазі саме Вас), і в гіршому – безвідповідально маніпулюють цифрами для обгрунтування своїх фантазій (а це вже не про Вас)”. Вважайте це компліментом 🙂

    Але здається, Ви не звернули увагу на головний мій месседж – будь-які прогностичні моделі, побудовані на неповних та/або помилкових данних завжди будуть неповними та/або помилковими. Як то кажуть, garbage in – garbage out. Для data science це основне правило, і найбільш важлива частина тут – очистка сирих данних. Це включає в себе видалення помилкових записів, дублікатів, визначення помилок в методології збору данних, тощо. Якщо Ви використовуєте чужі данні, без знання методики їх збору, без розуміння, звідки вони взялися і без можливості якось перевірити їх валідність – на виході ви отримаєте щось, що буде мало відповідати дійсності. Навіть якщо Ви бездоганно виконали всі інші дії з аналізу цих данних і дійшли певних висновків у строгій відповідності науковому методу.

    Я зовсім не проти використання сумнівної чистоти данних та методів приблизних оцінок – але на моє переконання, треба обов’язково попереджати непідготовлених читачів, про неповноту вихідних данних та обумовлену цим неточність висновків.

    • Науковець | 02.04.2020 at 20:22 |

      Ну що Ви, які образи! Звичайно, що звернув увагу на Вашу думку. Однак погодьтеся, що “очистка сирих данних”, додам ще хибних, свідомо перекручених, потребує організацію верифікації з різних джерел, перерахунку, тощо. А це вимагає часу, й не малого, враховуючи масштаби трагедії. Ось тут пан Анти-Колорадос вже наводив приклад, як американці перевірили дані з Китаю та які зробили висновки.

  3. Black_Jack | 02.04.2020 at 11:15 |

    Yuris

    Какие у Вас лично есть сведения о неполности\ошибочности входных данных?
    Можете предоставить свои данные? Нет? Тогда Ваши сообщения не несут никакой полезной нагрузки…

    • Борис | 02.04.2020 at 11:52 |

      Он говорит о неточности выводов исследования в силу неполноты/никчемности входных данных. Видимо, он – гуманитарий и просто не понимает о чем идет речь. Он просто не понимает, что такое “Нормальное распределение Гаусса”, что данные исследования как раз и позволяют сделать оценку полноты и правдивости входных данных.

      • А ти телепат? Ясновидець? Переможець битви екстрасенсів? )))))

        Молодець, візьми з полички пирожок.

    • Зазвичай я на тупі питання не відповідаю, бо ціную свій час, але іноді можна зробити виключення, раптом до когось дійде?

      Нікому не відома точна кількість заражених (хтось провів 100% тестування усіх людей на планеті? Чи хоча б у певній країні? Чи в певному місті?).

      Нікому не відома точна (та навыть приблизна) кількість тих, хто заразився і одужав безсимптомно.

      Black_Jack, у Вас є такі данні? Ні? Самі зможете визначити цінність Вашого коменту? Чи допомогти?

      • Black Jack | 02.04.2020 at 12:37 |

        Yuris…
        Какое “ТОЧНОЕ количество зараженных”?!
        Вы по образованию (если оно есть) не боксер-теоретик?

        • А без переходу на особистості ніяк? По суті сказати нічого?

          Повторюю питання – комусь на цій планеті відоме число тих, хто заразився і одужав безсимптомно? Без тотального тестування на антитіла ці данні взяти нема звідки. Тому всі спекуляції будуються на індуктивних висновках, коли на основі данних з мізерної вибірки робляться висновки про стан речей в цілому. Точність таких висновків полвністю залежить від репрезентативності вибірки.

          • Евгений О. | 02.04.2020 at 17:00 |

            Именно на вашу реакцию, а точнее на уход от равновесия и рассчитаны подобные вбросы. Игнорируйте. Есть более важные дела.

          • Юрій | 02.04.2020 at 17:31 |

            +

          • Black Jack | 02.04.2020 at 18:37 |

            Перечитайте сначала свои предыдущие сообщения.
            Тогда, возможно, поймете, почему я Вам ответил таким образом.
            Ваш менторский тон, ничем не подкрепленный, вполне это заслуживает.

          • Владислав | 03.04.2020 at 10:42 |

            До Black Jack.
            Колєґо. Я розумію, що непрошена порада може вам не сподобатися, але таки насмілюся – ніколи не сперечайтеся з гуманітаріями, бо по-перше: вони професійні словоблуди і задавлять термінами, цитатами і посиланнями на тибетських ченців і по-друге: у них просто інша система світосприйняття. Там де ми бачимо схему або граф, вони бачать некрасиву картинку і не більше.

    • Евгений О. | 02.04.2020 at 16:59 |

      Наоборот. Поясняется, причем четко и абсолютно адекватно методология.
      Для тех, кто, естественно, хочет это понять.
      Следовало бы учитывать то обстоятельство, что ЛО читает множество народу с весьма различной специализацией образования и внушительное количество такового не имеющих. Именно по этой причине осуждаемое вами сообщение весьма полезно.

  4. Puzat-Pasuk | 02.04.2020 at 12:18 |

    Скажімо так.Тут більше не нормальний розподіл підійде,а його натуральний логарифм або функція арктангенса.Бо кількість хворих не може бути меншою за нуль

    • Сергій-Львів | 02.04.2020 at 12:36 |

      А де ви це побачили? Звичайно, цього не може бути.

      • Puzat-Pasuk | 02.04.2020 at 20:36 |

        Сам нормальний розподіл має значення від мінус до плюс нескінченності

        • Сергій-Львів | 02.04.2020 at 21:01 |

          Це по горизонталі для неперервної випадкової величини, для дискретних випадкових величин є певні межі.

        • Бгг.. это аргумент функции от – до + бесконечности, а значение — всегда больше нуля.

  5. Спроби притягнути суди теорію вірогідності (нормальний розподіл, тощо) – це взагалі цікава ідея.. але проблема в тому, що враження вірусом носить детермінований характер (купою факторів), і не є випадковим явищем.

    Більше коментувати цю тему не буду, бо таке виникає враження, що я тут спілкуюсь з купкою агресивних ідіотів. Іноді це навіть прикольно, але не довго.

    • Таке враження, що ніхто навіть не чув про predictive analytics and data science.

      • Евгений О. | 02.04.2020 at 17:05 |

        Цілком вірогідно, що більшість читачів таки не чули прота ке.
        Але це є цілком природно. Тож маємо, повторюсь, зважати на величезну різноманітність аудиторії та шукати більш-менш загальнозрозумілих слів.
        Тому, що сьогодні нашою спільною метою, якщо не помиляюсь, є в дуже суттєвій мірі просвітницька діяльність.
        Спеціалізовані диспути мають відбуватись там, де вони мають відбуватись.

        • Євгене, я навіть подумав був, чи не написати статью-відповідь, і “на пальцях”, простими словами, пояснити, що є що, щоб статті з графіками мали більше сенсу та сприймалися критично читачами, а не на віру. В принципі в мене таке непогано вигодить зазвичай, але до Фрітьофа Капри з його “Дао Фізики” я явно не дотягнув би )))

          Тим більше я сам не науковець, і не профі в науках про данні. Просто працюю з данними по роду своєї діяльності, вже деякий час. Але я не експерт ні в науці про данні, ні в прогностичному аналізі. Вся справа в тому, що я звик систематизувати свої знання з різних областей і оцінювати нову інформацію в контексті цієї системи. Тому, для мене, наприклад, очевидна різниця між статистичною корреляцією подій (навіть якщо коеффіцієнт корреляції = 1) та причинністю, між подіями, що детерміновані певними факторами, які піддаються пізнанню, і випадковостями, тощо. Я не бачу поки що, як цьому навчити інших, системному мисленню. Мене цьому ніхто не вчив, якось само. Тобто є деякі ідеї та припущення, але не більше того.

    • Згоден.
      “Процес розповсюдження хвороби вірусного походження відповідає цій умові? Очевидно, що так.”

      Не так. На росповсюдження впливають карантинні заходи, обмеження на пересування з-за кордону, кількість тестів. Якщо ці параметри протягом всього часу не змінюються, тоді плив цих факторів буде постійним, але ж вони змінюються з часом: люди починають з часом краще дотримуватися карантину, лікарі краще виявляти хворих, промисловість випускає більше тестів, тому хворих починають виявляти раніше і при менш виражених симптомах. Тому на початку росповсюдження “Базове репродукційне число” може бути вищим, але при запровадженні і дотриманні карантину це число падає, бо вірус не передається за межами кластару.

      • Науковець | 02.04.2020 at 20:47 |

        Про це детально в наведених у тексті посиланнях на роботи Tomas Pueyo. Спочатку стихійне розповсюдження має експоненційний характер, потім після запровадження захисних заходів, він змінюється. Дуже важливим є те, коли це зроблено. Зверніть увагу на Японію. Вони зреагували ще тоді, коли Ухань закрили. Крім цього, ми ще належно не оцінили такий важливий фактор, як свідомість мешканців, які вже мали досвід епідемії 2003 року.

    • “…що враження вірусом носить детермінований характер (купою факторів), і не є випадковим явищем…”
      ________________________
      Схоже так.

  6. Приходилось применять при анализе случайных величин Марковские процессы

    • Vadym Kuzmenko | 02.04.2020 at 20:02 |

      Шановний Друже (дозвольте мені так Вас називати), цілком підтримую Вашу позицію!
      Дуже прошу: не звертайте уваги на коментарів, які “чули дзвін, та не знають, де він”.
      Ваші зауваження не просто цілком слушні, а фундаментальні.
      Це я Вам заявляю, як інженер-математик з неабияким стажем. Якщо цього недостатньо, можу ще додати, що мої донька і син мають PhD саме з математики і дотримуються аналогічної позиції.

  7. Андрій Дар | 02.04.2020 at 16:02 |

    У мене є додаткове питання: як на мою думки, випадки захворювання – не є окремі, статистично-випадкові, а вони пов’язані у ланцюжки передачі вірусу. тому, чи придатна тут вишенаведена методика, не знаю.
    Шановний Пан науковець, чи можете пояснити цей нюанс?

    • Науковець | 02.04.2020 at 20:55 |

      У Ваших міркуваннях є одне слабе місце: ланцюжки передачі формуються випадково, не передбачувано. Це ж люди, а не мишки в лабораторії, де контакти можна проконтролювати з самого початку.

      • Як на мене, ланцюжки передачі формуються цілком передбачувано, бо детерміновані обмеженим числом факторів, які впливають на враження вірусом набагато більше за всі інші події, тому події враження вірусом не є випадковими. Грубо кажучи, люди не контактують хаотично один з одним, а тільки з певним колом осіб, у людей різний рівень іммунітету, різна ступінь доступності для контактів з носіями, тобто “вірогідність” ураження вірусом цілком залежить від всього кількох факторів, тому ризики зараження для конкретної особи чи множини осіб, згрупованих по значущим критеріям цілком піддаються оцінці, і ніякої потреби застосовувати теорію вірогідності немає.

        Все що потрібно – достовірні і достатні статистичні данні про вірулентність та летальність вірусу для певних групп ризику. Це б дозволило побудувати прогностичні моделі для прогнозування поширення вірусу та наслідків інфікування для певних групп ризиків, локацій, тощо.

        Пройде якийсь час, і ці данні будуть накоплені і доступні, тоді не доведеться гадати на кофейній гущі.

        • Науковець | 02.04.2020 at 22:04 |

          Ви, напевно, описуєте процес зараження “очима” вірусу: є носій і він заражає довкола себе 2.3 осіб довкола себе. А якщо так поставити проблему: ви дома, на вулиці чи на роботі сьогодні зустрічаєте людей, серед яких є носій, захворієте? Тут як пощастить, а таке “щастя” оцінюється як ймовірність. І люди якраз у цьому сенсі хаотично контактують між собою. Була історія з британським журналістом, який вернувся з Ухані і ще до того, як захворіти, заїхав на якусь зустріч в Європі, потім в Альпи. На щастя, з ним все добре тепер. Про наших віп-відпочиваючих та заробітчан всі знають, як вони нехаотично роз’їхались по домівках.

          • Можливо, за тимчасової відсутності достатніх данних і можна припустити, що інфікування вірусом це випадкова подія, і застосувати теорію ймовірності для обчислення імовірної динаміки пандемії. Але як на мене, це занадто грубе припущення і на виході ми отримаємо прогноз, який буде мати мало спільного з реальністю.

            Все таки, на мою думку, інфікування не є випадковою подією, на кшалт підкидання монетки і випадання орла чи решітки (бо неможливо контролювати чи обчислити всі фактори що суттєво впливають на рух монети). Демографія, паттерни переміщення масс, ступінь урбанізації, генетичні особливості популяції, рівень ультрафіолету, ще 5-10 факторів і все. Перелічені фактори впливають на процесс розповсюдження суттєво сильніше ніж всі інші (випадкові) події у світі. Тому, строго кажучи, процесс інфікування не можна вважати випадковим.

            Давайте припустимо, що я помиляюсь. Які на Вашу думку, межі застосування теорії вірогідностей? Як строго виокремити події випадкові, від подій детермінованих, з точки зору теорії ймовірності? Чому на Вашу думку, процесс розповсюдження вірусу є імовірнісним (стохастичним), а не детермінованим?

          • Науковець | 03.04.2020 at 12:50 |

            Якщо дати відповідь на Ваше питання у доступній формі для більшості наших читачів, то на відміну від детермінованих величин значення випадкової величини в певний момент часу неможливо точно передбачити. Пригадайте класичну задачу з механіки руху двох, трьох і більше тіл. Можна обчислити їхні координати в будь-який момент часу? Можна. А як з молекулами? Теоретично можна, однак спробуйте. Тут точність ваших обчислень буде обмежена різними за походженням похибками. Що тоді робити? Застосовувати теорію ймовірності. Так і тут, це вже про суперечливу тезу “ваші маршрути і коло спілкування одні й ті самі” з нижченаведеного Вами повідомлення: люди як молекули, усі фактори, які впливають на їхнє переміщення не врахуєш. Можна ще розмалювати різними кольорами здорових і носіїв вірусу, врахувати його заразність і запустити броунівський рух. У кожний момент часу буде зовсім різна, детерміновано визначена картина, яка не дасть Вам відповіді, як вона виглядатиме в наступний момент часу. Про методи статистичного аналізу сперечатися не буду, тут я не спец, тут надаю відповідь як фізик.

  8. Matko Destanov | 02.04.2020 at 20:18 |

    Вот, кстати, исландцы решили сделать то, что, судя по всему, пытался донести в своих высказываниях yuris. И хотя они ещё не закончили, но уже вырисовываются довольно интересные данные.

  9. Volodymyr | 03.04.2020 at 04:22 |

    То yuris | 2 Квітня, 2020 at 21:28 “Як на мене, ланцюжки передачі формуються цілком передбачувано,…” А от у мене мій особистий приклад, ще до карантину. Мій “грфік” – робота-дім-окаен-гори. Океан-гори це вихідні. Моя колега по роботі – робота-кафе-дім і так вся неділя. Пересуваємось ми однаково, вона на машині, я на велосипеді. Як таке можна вклати в Вашу теорію про передбачуваність. До речі, згоден з вами на всі 100 про недостовірність даних – Китай та мордор на сцені. Тобто там завідомо не вірні дані, підігнані під проф.”Сталя”. Це не може бути критикою, це питання, думка, як завгодно.

    • Валідність вихідних данних це одна проблема, питання застосовуваності теорії ймовірностей – інша. Точність збору данних тут не так суттєво впливає, на мою думку, як майже відсутність данних про антитіла і неможливість поки що встановити справжні масштаби інфікування, бо всі цифри якими зараз оперують не включають в себе тих, хто заразився і одужав безсимптомно. Це, на мою думку, основна проблема.

      Щодо “передбачуваності” – краще назвати це детермінізмом. Ви самі частково відповіли собі – Ваші маршрути і коло спілкування одні й ті самі. Інші люди також мають сталі паттерни переміщення і контактування. Можна виділити певні группи, паттерни яких схожі, і побудувати доволі точний прогноз, набагато точніший, ніж якщо припустити що інфікування процесс недетермінований і випадковий. Ади це було не так – для чого нам тоді статичний аналіз? Бо він дає змогу будувати набагато більш точні прогнози, ніж обчислення вірогідностей псевдовипадкого процессу.

      Є така штука, наприклад, генератор випадкових чисел. Але насправді 99% таких генераторів псевдовипадкові. Якщо віднайти алгоритм генерації чисел, то можна передбачити, числа, які будуть видаватися як начебто випадкові. Істинні генератори випадкових чисел обов’язково користуются непередбачуваними факторами – зазвичай фізичними процессами, на кшалт коливання напруги на кристаллі процессора, для генерації спражньої випадковості.

      Чим більше в це заглиблюєшся, тим більше розхумієш, що провести розмежування між процессами випадковими і детермінованими не так то просто. За самим великим рахунком, всі фізичні процесси у Всесвіті одночасно і детерміновані і вірогідні. Але це вже метафізика – ризиковано тут про це писати – прибіжать вузькі специ (подібні флюсу) технарі і почнуть джихад проти “гуманітаріїв” )))))

      • Volodymyr | 03.04.2020 at 22:42 |

        То yuris | 3 Квітня, 2020 at 11:33 Дякую, більш-менш зрозуміло.

      • Науковець | 04.04.2020 at 00:59 |

        “всі фізичні процеси у Всесвіті одночасно і детерміновані і вірогідні” – о, це вже наближаємося до квантової механіки! 🙂

Comments are closed.