Вышел исследовательский v5.5.2!

Новые стоп-слова, фильтр с исключением текущего периода, горизонтальная полоса ошибок и многое другое!

Мы только что выпустили Exploratory v5.5.2!

Мы работали над v5.5.2 последние несколько недель после выпуска v5.5. Для этого якобы «патч-релиза» мы хотели сосредоточиться на двух вещах.

Во-первых, мы хотели улучшить общее качество. Это включает в себя не только исправление ошибок и проблем, о которых сообщают наши пользователи, но также внедрение «упреждающей» проверки и улучшенной логики обработки ошибок.

Во-вторых, мы хотели включить некоторые функции, которые собирались включить в v5.5, но не смогли, потому что у нас не хватило времени. Поэтому мы хотели предоставить эти функции с отличным качеством.

Так что это не очередной выпуск патча. В нем есть несколько замечательных новых функций и улучшений. Как всегда, вы можете ознакомиться с примечанием к выпуску, но я хотел бы быстро представить следующие функции.

  • MongoDB - ограничение запроса с первым / последним
  • Данные Excel - улучшенная поддержка столбцов типа данных даты / времени
  • Токенизация текста - новый словарь стоп-слов
  • Фильтр - последние N (период) исключает этот (период)
  • Горизонтальная полоса с повторением по
  • Горизонтальная гистограмма ошибок
  • Модели регрессии - более четкие имена категориальных переменных
  • Слайд - Поддержка Auto Fit
  • Параметр - Поддержка списка значений для логического типа

Если вы не знаете, Exploratory упрощает использование различных методов Data Science для непрограммистов, предоставляя современный и простой пользовательский интерфейс.

И я собираюсь представить новые функции и улучшения в этом направлении.

Доступ к данным

Mongo DB - ограничить запрос с первым / последним

Иногда вы просто хотите получить доступ к данным в MongoDB, ограничив количество строк. И когда вы ограничиваете количество строк, вы хотите видеть либо первые, либо последние N строк (например, 100).

Мы добавили параметры «Последний» и «Первый» для ограничения запросов.

Файлы Excel - тип данных "Дата / время"

Если вы ранее импортировали файлы Excel в Explorer, возможно, вы видели что-то вроде того, что показано ниже.

Эти 2 столбца должны быть столбцами даты, но каким-то образом они были импортированы как числовые столбцы с числовыми значениями интервалов Excel для даты и времени.

Некоторые файлы Excel работали нормально, а некоторые - нет.

Конечно, вы можете исправить это, выбрав «Изменить тип данных» и «Преобразовать из числового в дату (Excel)» в меню заголовка столбца.

Но если вам приходится делать это каждый раз, когда вы импортируете файлы Excel, это становится раздражающим.

И вот хорошие новости. Мы наконец нашли способ исправить это. 💪

Теперь эти столбцы будут импортированы как столбцы POSIXct (типы данных даты / времени), если они либо зарегистрированы как дата / время в Excel, либо имеют типичный формат даты.

Файл Excel - часовой пояс

Когда столбцы Date / Time импортируются как POSIXct (тип данных Date and Time), мы должны помнить о часовом поясе.

Логика импорта автоматически определяет настройку местного часового пояса на вашем ПК и использует его в качестве часового пояса для столбцов даты / времени. Но иногда этот часовой пояс не подходит для ваших данных.

В таких случаях вы можете изменить его с помощью параметра «Часовой пояс».

Преодоление данных

Токенизация текста - стоп-слова

Вы можете токенизировать текстовые данные (предложения) исследовательского характера, выбрав «Преобразование текстовых данных (UI)» и «Токенизировать текст (пробел между словами)».

В результате каждое слово будет представлено в виде строки.

И когда мы хотим проанализировать или визуализировать эти данные, нам часто нужно удалить стоп-слова.

В этом выпуске мы переключили словарь стоп-слов на словарь из этого пакета R под названием tidystopwords.



Этот переключатель дает два больших преимущества.

Во-первых, он охватывает гораздо больше языков, чем раньше, включая японский, китайский и корейский!

Во-вторых, он включает в словарь современные стоп-слова, такие как http, t.co и т. Д. Это упрощает избавление от стоп-слов в тексте твита!

Вот пример визуализации слов, используемых в твитах о Data Science.

Как видите, есть много стоп-слов, таких как «the», «to», «and» и т. Д.

Вы можете удалить игнорируемые слова, выбрав язык игнорируемых слов в диалоговом окне Tokenize.

Без стоп-слов вы получите что-то вроде следующего.

Фильтр - последние N (период), исключая этот (период)

Это очень удобный оператор фильтрации, и я уверен, что вы захотите им воспользоваться.

Здесь у меня есть диаграмма, показывающая ежедневные просмотры страниц за 4 недели.

Я создал фильтр с оператором «относительной даты» и установил для него «последние 4 недели», как показано ниже.

Но вот проблема.

«Просмотры страниц», кажется, резко упали в самый последний день, то есть сегодня. Это потому, что мы все еще находимся в середине дня, поэтому у нас еще нет всех "просмотров страниц".

Итак, мы хотим получить данные за последние 4 недели, исключая «сегодня». Другими словами, нам нужен период в 4 недели, который закончится вчера.

Для этого мы добавили параметры «Последние N (исключить)» в диалоговом окне «Фильтр».

Здесь я обновляю фильтр, указанный выше, на «Последние N недель (исключить сегодня)».

И это сделает диаграмму такой, как показано ниже.

Вы можете видеть, что в последний день графика не произошло резкого снижения, как раньше.

Это касается не только «Исключить сегодня», но есть и другие варианты.

Вот диаграмма, которая показывает еженедельную тенденцию «просмотров страниц» за последние 4 месяца. Вы можете увидеть огромное падение в конце, потому что сегодня понедельник на момент написания, а эта неделя только начинается! ;)

Теперь я могу выбрать «Последние N месяцев (исключить эту неделю)» для этого случая, чтобы хранить данные за 4-месячный период, который заканчивается в конце прошлой недели!

Визуализация

Горизонтальная гистограмма

Теперь вы можете сделать гистограмму горизонтальной даже с настройкой «Повторять по». И вы можете отображать значения даже с Repeat By!

Горизонтальная шкала погрешностей

Мы добавили параметр «Ориентация» в полосу ошибок, что означает, что теперь вы можете отображать диаграмму полосы ошибок горизонтально.

Аналитика

Статистические модели обучения - более понятные имена категориальных переменных

Когда вы запускаете модели статистического обучения, такие как линейная регрессия, логистическая регрессия и т. Д., Они автоматически преобразуют заданную категориальную переменную в широкий формат, так что каждая категория становится отдельной переменной, за исключением базового уровня.

И имена этих внутренних переменных часто было нелегко прочитать.

Вот как это выглядело раньше. Взгляните на переменные, связанные с должностями.

Исходное имя столбца (Должностная роль) и каждое из категориальных значений (например, менеджер, директор по исследованиям и т. Д.) Объединяются вместе.

Мы упростили чтение, разделив их двоеточием.

Вот как это выглядит сейчас.

Коммуникация

Слайды

Когда у вас есть сводная таблица или таблица на слайде и в ней много строк, у вас будет полоса прокрутки, чтобы увидеть все данные, перемещая ее вверх и вниз.

Но иногда вам нужно показать все строки на одном слайде без полосы прокрутки. Может быть, потому что вы хотите сделать снимок экрана и поместить его в другой документ (например, PowerPoint).

Чтобы решить эту проблему, мы вводим параметр «подгонять», который может принимать значения «высота» или «ширина» и заставляет сводную таблицу или таблицу точно умещаться в пределах данного слайда.

Вы всегда можете проверить, как это будет выглядеть в большом окне, выбрав «Открыть в веб-браузере» в раскрывающемся меню экспорта.

Параметр

Параметр «Логический тип» теперь поддерживает «Список значений» в качестве типа ввода!

Вы можете создать параметр как логический тип.

Вот и все!

Опять же, для получения более подробной информации ознакомьтесь с примечанием к выпуску.

Я настоятельно рекомендую вам скачать Exploratory v5.5.2 сегодня со страницы загрузки!

Кан, генеральный директор / исследовательский

Попробуйте Exploratory v5.5.2!

Обязательно скачайте v5.5 с нашей страницы загрузки сегодня!

Если у вас еще нет исследовательского аккаунта, зарегистрируйтесь на нашем сайте и получите 30-дневную бесплатную пробную версию без кредитной карты!

Если вы сейчас учитесь или учитесь в школе, это бесплатно!