Публикации по теме 'statistics'


Итерация политики - простой пример
Итерация политик - это способ найти оптимальную политику для заданных состояний и действий. Предположим, у нас есть политика (𝝅: S → A), которая назначает действие каждому состоянию. Действие 𝝅 (s) будет выбираться каждый раз, когда система находится в состоянии s. Идея итерации политики Оценить данную политику (например, инициализировать политику произвольно для всех состояний s ∊ S) путем вычисления функции ценности для всех состояний s S в рамках данной политики..

Непрерывное распределение вероятностей
Определение Равномерное распределение Вопросы: Если X1 и X2 оба из равномерного распределения, как насчет X1 + X2, X1 * X2, max(X1, X2), min(X1, X2), 1-X1? Нормальное распределение Тест нормальности включает W-тест Шапиро-Уилка, тест Андерсона-Дарлинга (AD-тест) и тест Колмогорова-Смирнова. Если log(x) имеет нормальное распределение, мы говорим, что x имеет логарифмически нормальное распределение Экспоненциальное распределение Смоделируйте время,..

Кластеризация в управлении капиталом: оригинальный способ визуализации поведения клиентов
Управление капиталом состоит в управлении инвестициями от имени других. Чтобы предоставлять наилучшие услуги, управляющим активами крайне важно понимать поведение клиентов. Вот почему в частных банках принято искать закономерности в данных клиентов. Кластеризация является распространенным методом для достижения этой цели. Однако одной из ключевых проблем при таком подходе является отображение и интерпретация результатов. В этой статье я кратко расскажу о кластеризации и, самое главное,..

Как определить количество ячеек гистограммы?
В этой статье объясняются два часто используемых метода для расчета количества интервалов гистограммы. Что такое гистограмма? Гистограмма отображает частоту (количество) числовой переменной, разбивая ее на ячейки (интервалы). По оси абсцисс гистограммы показаны интервалы, а по оси ординат - частота выборок в этих интервалах. Форма гистограммы может варьироваться в зависимости от количества интервалов. Следовательно, важно выбрать правильное количество интервалов для правильного..

Утрата умозаключений
Растущая область науки о данных / машинного обучения в значительной степени заимствует статистику, но убивает ее. Например, «фиктивная переменная» становится «горячим кодированием», «независимые переменные» становятся «функциями». Этот сдвиг в номенклатуре приводит к потере методологического смысла, присущего исходным названиям; например, при обычном поиске в Google по набору данных «auto-mpg» будет выведено множество страниц с инструкциями, почти все из которых рассматривают..

Объяснение анализа основных компонентов (PCA)
Многомерные данные — это наборы данных, в которых каждое наблюдение или точка данных имеют большое количество признаков или переменных. Изображения — это простейший пример многомерных данных, где каждый пиксель служит измерением. Изображения с высоким разрешением могут иметь миллионы пикселей, что приводит к огромному количеству измерений. Анализ основных компонентов, или сокращенно PCA, — это метод уменьшения размерности , используемый для сжатия многомерных данных при сохранении..

Проверка гипотез, часть 2
P-значение P-значение – это вероятность получения выборки как или более экстремальной (имеющей больше доказательств против H₀ ), чем наша собственная выборка, с учетом нулевой гипотезы. ( H₀ ) верно. Допустим, я провожу эксперимент, в котором я посылаю кого-то (взяв опекуна из Doom 2) украсть горох. Это испытание Бернулли, поскольку результаты эксперимента либо крадут горох, либо нет (результат типа «да/нет»). Это испытание становится биномиальным распределением, то есть..