← К описанию

Денис Соломатин - mixOmics для гуманитариев



Введение

«Живые смыслы не оцифровать», тем не менее, реалии цифровой эпохи таковы, что всё настойчивее стремимся вникнуть в тайны мироздания пользуясь предоставляемым математикой инструментарием и описать увиденное на языке цифр. Само по себе это не хорошо и не плохо, не стоит лишь забывать и об эмоциональной, чувственной составляющей жизни человека. В связи со сказанным на передний план выходят различные «омики», изучающие то всеобъемлющее, что буквально создаёт нас, формируя основу нашей жизни. В частности, например: геном – как совокупность данных обо всех наших генах; транскриптом – постоянно меняющийся набор считываемых из генома данных; протеом – все производимые нашим организмом белки; эпигеном – условия, в которых живёт организм, формирующие своеобразный регуляторный уровень над генами; микробиом – бактерии, с которыми мы живём; метагеном – совокупный геном сообщества организмов, живущих вместе; коннектом – совокупность нервных связей живого организма; социом – как совокупность социальных связей индивида. Созданием в определённом смысле этого слова новых членов общества занимается и система образования, именно поэтому на наш взгляд оказывается уместным в ходе статистической обработки педагогической информации использование mixOmics – пакета прикладных программ, функций и процедур R, разрабатываемого и поддерживаемого отделением математики и статистики Мельбурнского университета (Австралия), а также Институтом математики Университета Тулузы (Франция), с передовыми достижениями которых можно ознакомиться на сайте http://mixomics.org

В фундаментальной работе Грабарь М. И., Краснянская К. А. (Применение математической статистики и педагогических исследованиях. Непараметрические методы. М., «Педагогика», 1977. 136 с. с ил. Науч.-исслед. ин-т содержания и методов обучения Акад. пед. наук СССР), на стр.4 констатировали печальный факт: «Любое изложение общей теории проверки статистических гипотез неизбежно должно предполагать у читатели очень серьезную математическую подготовку, каковой, к сожалению, не обладают большинство исследователей-педагогов». С наступлением цифровой эпохи и распространением доступных инструментальных средств статистической обработки информации отмеченный недостаток можно нивелировать и обратить в достоинство. Предполагается, что читатель уже знаком с изложенными в предыдущей части настоящего пособия азами работы R, – языка программирования для статистической обработки данных и работы с графикой, а также свободной программной среды вычислений с открытым исходным кодом в рамках проекта GNU. Поэтому во второй части сконцентрируемся на использовании ключевых функций пакета mixOmics для анализа педагогических данных. Если возникнут какие-либо проблемы с пониманием излагаемого материала, настоятельно рекомендуется вернуться и перечитать предыдущую часть пособия. Выбранный набор инструментов включает в себя многовариантные методы статистического анализа, предпочтение которым отдаётся в зависимости от обрабатываемых или собираемых педагогических данных, например, с целью апробации результатов, дискриминантного анализа, слияния двух или более наборов данных. mixOmics – это набор инструментов R, посвященный исследованию и слиянию различных наборов данных с определенным акцентом на выборе переменных. Пакет в настоящее время включает в себя порядка двадцати многовариантных методов. Первоначально все методы были разработаны для данных «омиков», однако их применение не ограничивается только такими данными. Другие приложения возникают как правило в тех случаях, когда переменные-предикторы (то есть переменные, по значениям которых составляются прогнозы) непрерывны.

В пакете mixOmics, сильный акцент делается на графическое представление, чтобы лучше интерпретировать и понять отношения между различными типами данных визуализируют структуру корреляции как на выборочных значениях, так и на шкале интервалов. А начинается использование рассматриваемого пакета со ввода данных. Напомним блок-схему основного алгоритма статистической обработки педагогических и социальных данных, концептуально выкристаллизовавшегося к концу предыдущей части книги: