Мне нужно провести три разных вида сравнений между разными алгоритмами интеллектуального анализа данных.
Единственный тип сравнения, который является проблематичным, — это самый простой, два алгоритма на одном наборе данных — для меня это проблематично.
Я знаю статью Diettrich (1998), в которой McNemar и 5x2CV упоминаются как предпочтительные варианты и утверждается, что t-критерий с повторной выборкой невыполнимо. Поскольку анализ является частью более крупной схемы с использованием подвыборок, обучения 60:40: разбивки тестов и общей стоимости в качестве показателя эффективности, я не могу их использовать.
Какие другие варианты оценки эффективности существуют в этом случае?
Sign-test: просто подсчитайте количество случаев, когда каждый из двух алгоритмов работает лучше, а затем проверьте p-значение с помощью биномиального распределения. Проблемный, так как очень слабый.
Уилкоксон-подписанный ранговый критерий: как непараметрическая альтернатива t-критерию, о котором я подумал первым, но не упоминается ни в одной статье для такого рода сравнения, только для сравнения двух алгоритмов на несколько наборов данных с использованием среднего результата производительности нескольких итераций. Это невозможно, и если да, то почему?