Читаю сейчас один отчет, который заставил меня вспомнить о дискуссиях по поводу разразившегося несколько месяцев назад климат-гейта, и задуматься о том, как именно хранятся научные данные, насколько открыт к ним доступ для широкой публики, и насколько широко распространяются обязательства ученых по предоставлению информации, необходимой для воспроизведения их экспериментов. В теории, конечно, ответ довольно прост: при публикации ученый обязан подробно описать все методы, необходимые для воспроизведения его работы, а после публикации, обязан предоставить реактивы и-или необработанные данные всем желающим. На практике, на самом деле, все бывает намного сложнее и запутаннее.
Многие наборы данных невоспроизводимы. Эпидемия вируса, взрыв сверхновой, влияние появления интернета на потребление информации - исторические события могут быть описаны неким набором данных, который воспроизвести просто невозможно. Некоторые данные воспроизвести невозможно по этическим причинам: сравнение продолжительности жизни в группах ВИЧ-положительных людей принимающих и не принимающих антивирусные лекарства было возможно лишь в самых ранних испытаниях, когда эффективность лекарств была неизвестна; сейчас контрольная группа всегда получает стандартное лечение. Наконец, некоторые наборы данных воспроизводить просто нерационально: для того, чтобы воспроизвести эксперименты на Большом Хадронном Коллайдере, нужно построить еще один Коллайдер.
Необработанные данные часто не существуют или не могут быть распространены. Возьмем тот же Коллайдер: он за секунду получает петабайт (миллион гигабайт) данных. Хранить столько данных невозможно даже при самых современных технологиях хранения информации. Поэтому данные на лету анализируются "на интересность" компьютером, из них 99.99999% тут же выбрасывается, а сохраняются из них лишь порядка 100 мегабайт. Схожие проблемы существуют в самых разных областях науки, где "необработанные" данные существуют лишь временно или даже вообще не существуют. В биологии, когда клетки красятся разными маркерами одновременно, то инструмент настраивается в каждом эксперименте так, чтобы компенсировать утечку сигнала от одного маркера в другой. Компенсация производится прибором на лету, необработанные данные не сохраняются, и по окончательным данным невозможно воспроизвести ни природу ни количество такой компенсации. В медицине, необработанные данные содержат в себе личную информацию о пациенте (его возраст, даты прихода в клинику, болезни родственников) и хотя они и существуют, но их нельзя выкладывать в общественный домен.
Порой сбор информации занимает годы и усилия целой группы людей, но эта информация потом может анализироваться самыми разными способами и вести к ряду публикаций. Ученые, собравшие некий большой и трудоемкий набор данных, обычно получают некоторый срок на то, чтобы полностью его проанализировать. Поэтому бывает и так, что при публикации научной статьи данные, по которым эта статья была сделана, остаются закрытыми. Если я не ошибаюсь, то данные с того же Коллайдера держатся внутри тех коллабораций, которые их получили (френды поправят, если это не так).
Теперь пара замечаний о методах:
Некоторые методы анализа построены так, что они невоспроизводимы в точности. Например, при построении филогенетических деревьев используется bootstrapping - процесс, при котором из общего набора данных случайно выбирается поднабор, который можно реалистично проанализировать и на его основе строится дерево. Это проделывается очень много раз и в конце концов результатом является дерево, которое появлялось наиболее часто. Поскольку такой анализ основан на случайных выборках, его результаты не будут в точности воспроизводимы в повторных анализах тех же самых данных.
Некоторые экспериментальные методы и методы анализа настолько сложны, что их невозможно (или нерационально с практической точки зрения) полностью описать в журнале или даже в сопроводительных материалах к статье. Даже более-менее простые методики зачастую содержат в себе знания или навыки, которые возможно получить лишь после многолетнего обучения или практики. Должно ли в обязанности ученого входить обучения и тренировка всех, кто желает повторить или даже просто полностью понять его методы и-или знания в некоторой области? Мне кажется, что - нет.
И напоследок об образцах: Многие научные работы делаются на образцах, которые очень трудно получить или воспроизвести, и которые имеются в очень ограниченном количестве. Например - образцы грунта с Луны. Или вот менее экзотический пример: образцы крови из недавно проведенного испытания в ВИЧ-вакцины в Тайланде - их совсем немного и на то, чтобы их получить, были потрачены годы работы и больше 100 миллионов баксов. Такие образцы не могут быть предоставлены в общий доступ и для всеобщего анализа, потому что они слишком ценны и необходимы для проведения тех исследований, для которы они и были собраны. В процессе этих исследований эти образцы будут использованы полностью и воспроизвести эксперименты будет невозможно.
Ну и совсем уж напоследок: Стандарты хранения данных и переноса их с устаревающих или разрушающихся носителей на новые очень сильно варьируют от одной области науки к другой. В большинстве биологических лабораторий, лабораторные журналы и реагенты хранятся пять лет. Иногда больше, иногда меньше, в зависимости от стоимости хранения, наличия места и целесообразности этого хранения. Одним из наиболее организованно хранящихся типов данных является последовательность ДНК. Например, база данных в Лос Аламосе хранит практически все известные последовательности геномов ВИЧ, будь они полными или частичными. Но в этой базе данных хранятся не необработанные данные (гели или файлы с секвенаторов), а уже конечные последовательности, то есть невозможно проверить их аккуратность и достоверность.
Интересно, что когда я приводил эти примеры в дискуссиях о климат-гейте, чтобы проиллюстрировать то, что идеальная картина организации науки далеко не всегда соответствует практике, то меня сразу же зачисляли в ряды таких же "ученых" (sic, в кавычках!) или воспринимали их как подтверждение того, что наука сейчас вообще неизвестно куда катится и состоит лишь сплошь из прохиндеев и жуликов.