mns2012 (mns2012) wrote in biosemiotics,
mns2012
mns2012
biosemiotics

Categories:

Дизайн-распознавание: основные понятия

Основные понятия изложены в алфавитном порядке. Полужирным выделены термины, объяснение которых можно найти в этом документе.

Абдукция: (от лат. abduction — отведение) — способ рассуждения, ориентированный на поиск правдоподобных объяснительных гипотез. А. состоит в исследовании фактов и в построении гипотезы, которая их объясняет. А. и индукция начинают с фактов, но по-разному их исследуют. Если индукция ищет факты, подтверждающие ее заключение, то А. направлена на установление определенной регулярности между фактами. Эта регулярность выражается в виде предварительной гипотезы, которая после многократных уточнений смогла бы объяснить данные факты. Логическая форма абдуктивного рассуждения представляется в следующем виде.

  • Наблюдается некоторое явление Р.

  • Р было бы объяснено, если гипотеза Н была бы истинной.

  • Следовательно, имеется основание думать, что гипотеза Н истинна.

Альтернатива: одно из состояний статического, динамического, химического, термодинамического равновесия исследуемой системы. Достаточно широкие зоны равновесия предоставляют возможность наложения правил функционирования. Например, альтернативами могут трактоваться положения вкл/выкл горизонтально расположенного переключателя, различные положения шахматной фигуры на доске в контексте игры, а также различные последовательности нуклеотидов матричной РНК. Как известно, полимеризация мРНК характеризуется практически полным отсутствием химической избирательности, поэтому, с химической точки зрения, возможна реализация любой последовательности. Таким образом, существует возможность выбора тех или иных последовательностей по прагматическому критерию: например, с тем, чтобы синтезировать функциональную цепочку аминокислот, то есть такую, которая уложится затем в трехмерную структуру, обеспечивающую конкретное белковое взаимодействие (скажем, связывание АТФ миозином).

Верхняя оценка количества Imaxнеинтел. функциональной информации, способной накопиться в системе неинтеллектуально: Оценка максимально возможного количества информации, генерируемого за счёт неинтеллектуальных факторов (за счёт движения вещества системы в результате природных регулярностей и факторов случайного характера). Оценка Imaxнеинтел. зависит от исследуемой системы, а также от принимаемых допущений (например, от того, какие состояния рассматривать: химические, квантовые и пр. или, как в примере, рассмотренном ниже, число репликаций живых организмов в предположении, что вся биота размножается со скоростью одноклеточных). Оценка Imaxнеинтел. должна быть корректно подсчитана. В противном случае возможно некорректное дизайн-распознавание, выражающееся в ложных положительных результатах теста, когда конфигурации материи, не являющиеся дизайнами, классифицируются как дизайны. С другой стороны, завышение верхней оценки приводит к уменьшению чувствительности тестирования, что выражается в возрастании числа ложных отрицательных результатов, когда дизайны не распознаются.

Пример. Выведем оценку максимального количества функциональной информации Imaxнеинтел., способной накопиться в результате эволюционных движений биоты. Для этого оценим число состояний, которые могли быть просмотрены эволюционным блужданием за всю историю биосферы. Ещё раз подчеркнём, что это верхняя оценка, выводимая из оптимистических оценок влияющих на неё факторов. Иными словами, эти оценки целенаправленно выводятся со значительной "форой" (то есть гарантированно благоприятно) для нулевой гипотезы, согласно которой исследуемая конфигурация не является дизайном.

  • Всего бактерий на Земле: 5 * 1030 (см. напр. здесь). Будем считать это число оценкой размера биоты на всём протяжении её жизни.

  • Средняя частота мутаций на геном на поколение (mean mutation rate per genome per cell generation): 3 * 10-3 (см. здесь).

  • Среднее число поколений бактерий в день: 30 (по Докинзу, описавшему длительный эксперимент по эволюции одноклеточных, это число составляет 6-7, так что мы даём фору).

  • Максимальная оценка числа дней в распоряжении эволюции: 1.825 * 1012 (из расчёта 5 миллиардов лет).

  • Перемножаем все эти числа. Получаем: 8.2125 * 1041 состояний, которые могут быть просмотрены эволюционным блужданием, то есть порядка 1042 = 2140 состояний.

  • Итак, количество функциональной информации, которая может быть произведена неинтеллектуально эволюционными движениями биоты, составляет Imaxнеинтел. = — log2(1/2140) = log22140 = 140 бит. В данном случае мы предполагаем, что искомая функция максимально специфична (число синонимов функциональной строки, кодирующей некоторую функцию, равно 1, см. раздел Функциональная информация ниже). Это также значительно завышает нашу оценку в пользу возможностей эволюции.

Из рассмотренного примера следует (см. также Дизайн-распознавание ниже), что, если независимый расчёт количества информации (например, BLAST-анализ), соответствующей изменениям структуры биоты (например, переходу от беспозвоночным к позвоночным организмам) покажет, что информационный скачок превышает 140 бит, то тест на дизайн данного структурного изменения можно считать положительным, причём чем больше информационный скачок превышает 140 бит, тем с большей уверенностью можно об этом утверждать. Примеров таких дизайн-положительных структурных усложнений в биоте множество. Так, первичная структура белков семейства рибосомальных s12 характеризуется 346 функциональными битами, а семейства RecA 976 функциональными битами [Durston et al]. Следовательно, можно с уверенностью заключить, что белки данных семейств дизайн-положительны.

Особо следует подчеркнуть, что выводимая оценка касается функциональной информации. Размер генома не коррелирует с функциональной сложностью (см. так называемый С-парадокс). Используемое здесь определение функциональной информации существенно отличается от информации Шеннона. См. также пояснения здесь и здесь.

Дизайн: процесс интеллектуального создания конфигураций материи, а также (в зависимости от контекста) и сами эти конфигурации. Например, дизайнами являются ноутбук, жилой дом, авторучка, рибосомальный белок s12, запись краской на заборе "Здесь был Вася", а также текст, который вы читаете.

Дизайн-гипотеза, или основная гипотеза дизайна: Признаком интеллекта является способность создания конфигураций материи, характеризующихся статистически значимыми количествами функциональной информации (функциональной сложности).

Гипотеза дизайна основана на многочисленных наблюдениях неспособности таких природных факторов, как регулярности (физические или химические органичения) или случайности (например, термодинамические флуктуации состояния или бифуркации нелинейных систем) достаточно быстро генерировать достаточно большие количества функциональной информации. Наблюдения также свидетельствуют о том, что относительно большие положительные дельты функциональной информации в исследуемой системе за относительно малые промежутки времени способен генерировать только интеллект. Наблюдаемая настройка параметров исследуемой системы (например, системы синтеза белка или текста, который вы сейчас читаете) на области параметрического пространства, соответствующие достаточно сложной функции, при условии крайней разряженности и крайней относительной малости функциональных областей в этом пространстве, по статистике указывает на то, что выбор именно таких параметров системы был произведён интеллектуально (именно такая, а не иная последовательность нуклеотидов в мРНК, по которой синтезируется именно такой белок; именно такая, а не иная последовательность символов русского алфавита в данном тексте несёт именно такой смысл). Чем длиннее осмысленный текст, тем больше функциональной информации он несёт и тем с большей вероятностью мы можем заключить, что он явился результатом дизайна.

О байесовских факторах для оценивания конкурирующих гипотез см. здесь.

Дизайн-распознавание, или тест на дизайн: абдуктивное гипотетическое заключение об интеллектуальном происхождении некоторой конфигурации K материи, то есть о том, что появление K потребовало целенаправленной активности интеллектуального агента или агентов. Д.-р. можно рассматривать как процесс классификации K по признаку артефактности. Основой д.-р. является измерение количества I(K) функциональной информации, необходимой для производства K. Если I(K) является статистически значимым, то есть значительно превышает практически устанавливаемую верхнюю оценку количества Imaxнеинтел. информации, которая может быть произведена в системе неинтеллектуально, то с достаточной степенью уверенности можно заключить, что K должна была иметь интеллектуальное происхождение. Таким образом, статистически значимое количество функциональной информации указывает на предшествующий процесс принятия решений (при условии верности дизайн-гипотезы):

I(K) ≫ Imaxнеинтел. ⇒ дизайн(K) = ИСТИНА, (*)

где ⇒ означает абдуктивную импликацию, а дизайн(X) — булева функция, принимающая значение ИСТИНА в случае если K классифицируется как дизайн, и ЛОЖЬ в противном случае.

Например, д.-р. является заключение эксперта-криминалиста о том, что смерть потерпевшего была насильственной. Примером д.-р. также является положительный тест на дизайн рибосомального белка S12.

Далее, из приведённой формулы видно, что чем качественнее оценка Imaxнеинтел. максимального количества функциональной информации в системе, которое может быть произведено неинтеллектуально, тем точнее действует классификатор (*). И наоборот, при увеличении оценки Imaxнеинтел. практическая ценность классификатора падает.

И наконец, стоит обратить внимание на то, что классификатор (*) однонаправлен: при невыполнении условия I(K) ≫ Imaxнеинтел. о происхождении К ничего заключить нельзя. Поэтому ложный отрицательный результат (нераспознавание заведомого дизайна) свидетельствует лишь о недостаточной чувствительности классификатора (*) вследствие слишком завышенной оценки Imaxнеинтел. или же о том, что анализируемый дизайн не является достаточно функционально сложным. И только ложный положительный результат (классификация как дизайна конфигурации, им не являющейся), если таковой когда-либо будет получен, станет опровержением дизайн-гипотезы (разумеется, при условии корректности используемой при этом верхней оценки).

Интеллект: способность принимать решения.

Лицо, принимающее решение (ЛПР), или интеллектуальный агент: внешний по отношению к исследуемой системе актор.

Правила vs. ограничения: Живые системы, а также сложные искусственные системы характеризуются помимо физико-химических ограничений, действующих вследствие природных регулярностей, правилами функционирования. К числу правил работы некоторого прибора (скажем, датчика задымления) относится включение/выключение электрической цепи в отклик на регистрацию событий некоторого класса (превышение заданной концентрации угарного газа в помещении), тогда как наличие тока в проводнике по замыкании цепи является следствием природных регулярностей окружающего мира (так наз. законов природы, в частности, законов электромагнетизма: разность потенциалов вызывает движение электронов по проводнику). В отличие от неизменных природных регулярностей движения материи, проявляющихся всегда, правила представляют собой граничные условия на движение вещества в системе, которые иногда могут быть целенаправленно наложены на некоторую систему исходя из тех или иных прагматических соображений.

Прагматический критерий качества: критерий качества работы многокомпонентной системы, не сводящийся к физическим характеристикам движения. В роли прагматического критерия выступает обобщённая полезность (utility), выражающаяся в сохранении целостности функционирующей системы. В случае выбора автомобиля покупатель исходит из прагматических предпочтений (компромисс "цена/качество"). В случае живого организма в роли полезности может рассматриваться поддержание гомеостаза.

Принятие решений: целенаправленный выбор из альтернатив по прагматическому критерию. Выбор производится агентом. Стоит отметить, что выбор есть акт, действие; выбором не являются потенциальная возможность выбора, термодинамические флуктуации или бифуркации нелинейных систем.

Тест на дизайн: см. Дизайн-распознавание.

Функциональная информация (информация в контексте функции f): информация, ассоциированная с функцией f некоторой конфигурации K материи; мера уменьшения неопределённости у наблюдателя как результат реализации К. Ф.и. измеряется в функциональных битах (англ. functional bits, fits). В том, что касается уменьшения неопределённости, понятие ф. и. схоже с информацией Шеннона в том смысле, что функциональная информационная энтропия вводится аналогично информационной энтропии модели Шеннона (см. статью "Информационная энтропия" в википедии). Тем не менее, ф. и., в отличие от информации Шеннона, отражает смысловую сторону конфигураций материи, что особенно важно при исследовании проблем передачи информации в живых системах как в системах функциональных.

Конфигурации, характеризующиеся сложной функцией f, задают достаточно малую область O(f) в пространстве возможных конфигураций П. В качестве таких конфигураций без потери общности можно рассматривать строки описания функции f на некотором языке. Тогда область O(f) будет соответствовать множеству синонимичных строк, каждая из которых является представлением функции f. Чем меньше размер O(f) по сравнению с размером пространства П состояний, тем больше функциональной информации сообщает строка, кодирующая f. При заданном размере пространства П состояний наблюдатель получает максимально возможное количество информации в том случае, если функция максимально специфична (если не имеет синонимов, то есть при условии, что |O(f)| = 1). Минимальное количество функциональной информации равно 0, что выполняется в том случае, если любая строка из П задаёт функцию f (то есть когда специфичность функции f минимальна). В качестве меры сложности K можно рассматривать количество информации If, ассоциированной с функцией f, которое вводится следующим образом:

If = — log2 (Mf / |П|),

где Mf — размер области О(f), то есть число синонимичных строк, каждая из которых кодирует функцию f, |П| — размер пространства состояний, или число возможных строк заданной длины.

В контексте биосистем в качестве строк могут рассматриваться, например, нуклеотидные последовательности информационной РНК или последовательности аминокислот белковых макромолекул.

Рассмотрим два примера. Предположим, что наши строки, сложность которых мы оцениваем, составлены из букв русского алфавита, цифр, пробелов и знаков пунктуации. 33 буквы кириллицы плюс минимум 12 дополнительных символов  {".", ",", "–", "!", "?" ":", ";", "*", "+", "-", "/", " "} даёт алфавит мощностью 45.

Пример 1. Функция последовательности символов текста на данной странице состоит в передаче набора осмысленных утверждений о дизайн-распознавании. Параметрическое пространство в этом случае представляет собой множество П всевозможных строк длины, равной числу символов на этой странице = 23463. Интуитивно ясно, что число M строк, кодирующих тот же смысл, что и смысл текста на этой странице, очень мало по сравнению с размером параметрического пространства. Следовательно, функция данного текста может быть охарактеризована как сложная. Мера сложности в данном случае: — log2 (M / |П|), где |П| есть число всевозможных строк длины 23463. Следовательно, пространство состояний в нашем случае 45-символьного алфавита имеет размер |П| = 4523463.

Пример 2. Пусть имеется обработчик текстовой информации, посылающий сигнал тревоги по получении строки s = "ТРЕВОГА" и игнорирующий любое другое сообщение. Для простоты ограничимся случаем, когда возможно получение сообщений строк длиной 7 символов. Предположим также, что, как в примере 1, алфавит содержит 45 символов. Следовательно,  |П| = 457. Тогда сложность строки s составляет I = — log2 (1 / |П|) = 7 log245 = 38.4 функциональных бита. Наконец, если обработчик может распознать не только строку s, но и инвертированную строку s, тогда строка sинв = "АГОВЕРТ" будет синонимичной s. В этом случае, сложность строки s или sинв составит: I = — log2 (2 / |П|) = 7 log2(45/2) = 31.4 функциональных бита. Отсюда видно, что при увеличении числа синонимичных строк специфичность каждой из них уменьшается, что влечет и уменьшение количества функциональной информации, которую несет каждая функциональная строка.

См. также:
Функциональная сложность: см. Функциональная информация.

Литература:

  1. Академический интернет-словарь: Абдукция.

  2. Записка: Пояснения gpuccio по поводу оценок количества функциональной информации.

  3. Записка: Для удобства выкладываю опять пару ссылок.

  4. Durston KK, Chiu DK, Abel DL, Trevors JT: Measuring the functional sequence complexity of proteins. Theor Biol Med Model 2007, 4:47, doi:  10.1186/1742-4682-4-47

  5. Hazen RM, Griffin PL, Carothers JM, Szostak JW: Functional information and the emergence of biocomplexity. Proc Natl Acad Sci U S A 2007, 104 Suppl 1:8574-­‐8581, doi: 10.1073/pnas.0701744104.

  6. GPuccio: Defending Intelligent Design theory: Why targets are real targets, probabilities real probabilities, and the Texas Sharp Shooter fallacy does not apply at all, uncommondescent.com.

  7. GPuccio: An attempt at computing dFSCI for English language, uncommondescent.com.

  8. Szostak JW: Functional information: Molecular messages. Nature 2003, 423 (6941):689.

  9. Wikipedia: Bayes Factor.

  10. Wikipedia: Entropy (Information Theory).

  11. David L. Abel: The First Gene.

Tags: основные понятия
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic
  • 39 comments