Вышел исследовательский v5.5.2!
Новые стоп-слова, фильтр с исключением текущего периода, горизонтальная полоса ошибок и многое другое!
Мы только что выпустили Exploratory v5.5.2!
Мы работали над v5.5.2 последние несколько недель после выпуска v5.5. Для этого якобы «патч-релиза» мы хотели сосредоточиться на двух вещах.
Во-первых, мы хотели улучшить общее качество. Это включает в себя не только исправление ошибок и проблем, о которых сообщают наши пользователи, но также внедрение «упреждающей» проверки и улучшенной логики обработки ошибок.
Во-вторых, мы хотели включить некоторые функции, которые собирались включить в v5.5, но не смогли, потому что у нас не хватило времени. Поэтому мы хотели предоставить эти функции с отличным качеством.
Так что это не очередной выпуск патча. В нем есть несколько замечательных новых функций и улучшений. Как всегда, вы можете ознакомиться с примечанием к выпуску, но я хотел бы быстро представить следующие функции.
- MongoDB - ограничение запроса с первым / последним
- Данные Excel - улучшенная поддержка столбцов типа данных даты / времени
- Токенизация текста - новый словарь стоп-слов
- Фильтр - последние N (период) исключает этот (период)
- Горизонтальная полоса с повторением по
- Горизонтальная гистограмма ошибок
- Модели регрессии - более четкие имена категориальных переменных
- Слайд - Поддержка Auto Fit
- Параметр - Поддержка списка значений для логического типа
Если вы не знаете, Exploratory упрощает использование различных методов Data Science для непрограммистов, предоставляя современный и простой пользовательский интерфейс.
И я собираюсь представить новые функции и улучшения в этом направлении.
Доступ к данным
Mongo DB - ограничить запрос с первым / последним
Иногда вы просто хотите получить доступ к данным в MongoDB, ограничив количество строк. И когда вы ограничиваете количество строк, вы хотите видеть либо первые, либо последние N строк (например, 100).
Мы добавили параметры «Последний» и «Первый» для ограничения запросов.
Файлы Excel - тип данных "Дата / время"
Если вы ранее импортировали файлы Excel в Explorer, возможно, вы видели что-то вроде того, что показано ниже.
Эти 2 столбца должны быть столбцами даты, но каким-то образом они были импортированы как числовые столбцы с числовыми значениями интервалов Excel для даты и времени.
Некоторые файлы Excel работали нормально, а некоторые - нет.
Конечно, вы можете исправить это, выбрав «Изменить тип данных» и «Преобразовать из числового в дату (Excel)» в меню заголовка столбца.
Но если вам приходится делать это каждый раз, когда вы импортируете файлы Excel, это становится раздражающим.
И вот хорошие новости. Мы наконец нашли способ исправить это. 💪
Теперь эти столбцы будут импортированы как столбцы POSIXct (типы данных даты / времени), если они либо зарегистрированы как дата / время в Excel, либо имеют типичный формат даты.
Файл Excel - часовой пояс
Когда столбцы Date / Time импортируются как POSIXct (тип данных Date and Time), мы должны помнить о часовом поясе.
Логика импорта автоматически определяет настройку местного часового пояса на вашем ПК и использует его в качестве часового пояса для столбцов даты / времени. Но иногда этот часовой пояс не подходит для ваших данных.
В таких случаях вы можете изменить его с помощью параметра «Часовой пояс».
Преодоление данных
Токенизация текста - стоп-слова
Вы можете токенизировать текстовые данные (предложения) исследовательского характера, выбрав «Преобразование текстовых данных (UI)» и «Токенизировать текст (пробел между словами)».
В результате каждое слово будет представлено в виде строки.
И когда мы хотим проанализировать или визуализировать эти данные, нам часто нужно удалить стоп-слова.
В этом выпуске мы переключили словарь стоп-слов на словарь из этого пакета R под названием tidystopwords.
Этот переключатель дает два больших преимущества.
Во-первых, он охватывает гораздо больше языков, чем раньше, включая японский, китайский и корейский!
Во-вторых, он включает в словарь современные стоп-слова, такие как http, t.co и т. Д. Это упрощает избавление от стоп-слов в тексте твита!
Вот пример визуализации слов, используемых в твитах о Data Science.
Как видите, есть много стоп-слов, таких как «the», «to», «and» и т. Д.
Вы можете удалить игнорируемые слова, выбрав язык игнорируемых слов в диалоговом окне Tokenize.
Без стоп-слов вы получите что-то вроде следующего.
Фильтр - последние N (период), исключая этот (период)
Это очень удобный оператор фильтрации, и я уверен, что вы захотите им воспользоваться.
Здесь у меня есть диаграмма, показывающая ежедневные просмотры страниц за 4 недели.
Я создал фильтр с оператором «относительной даты» и установил для него «последние 4 недели», как показано ниже.
Но вот проблема.
«Просмотры страниц», кажется, резко упали в самый последний день, то есть сегодня. Это потому, что мы все еще находимся в середине дня, поэтому у нас еще нет всех "просмотров страниц".
Итак, мы хотим получить данные за последние 4 недели, исключая «сегодня». Другими словами, нам нужен период в 4 недели, который закончится вчера.
Для этого мы добавили параметры «Последние N (исключить)» в диалоговом окне «Фильтр».
Здесь я обновляю фильтр, указанный выше, на «Последние N недель (исключить сегодня)».
И это сделает диаграмму такой, как показано ниже.
Вы можете видеть, что в последний день графика не произошло резкого снижения, как раньше.
Это касается не только «Исключить сегодня», но есть и другие варианты.
Вот диаграмма, которая показывает еженедельную тенденцию «просмотров страниц» за последние 4 месяца. Вы можете увидеть огромное падение в конце, потому что сегодня понедельник на момент написания, а эта неделя только начинается! ;)
Теперь я могу выбрать «Последние N месяцев (исключить эту неделю)» для этого случая, чтобы хранить данные за 4-месячный период, который заканчивается в конце прошлой недели!
Визуализация
Горизонтальная гистограмма
Теперь вы можете сделать гистограмму горизонтальной даже с настройкой «Повторять по». И вы можете отображать значения даже с Repeat By!
Горизонтальная шкала погрешностей
Мы добавили параметр «Ориентация» в полосу ошибок, что означает, что теперь вы можете отображать диаграмму полосы ошибок горизонтально.
Аналитика
Статистические модели обучения - более понятные имена категориальных переменных
Когда вы запускаете модели статистического обучения, такие как линейная регрессия, логистическая регрессия и т. Д., Они автоматически преобразуют заданную категориальную переменную в широкий формат, так что каждая категория становится отдельной переменной, за исключением базового уровня.
И имена этих внутренних переменных часто было нелегко прочитать.
Вот как это выглядело раньше. Взгляните на переменные, связанные с должностями.
Исходное имя столбца (Должностная роль) и каждое из категориальных значений (например, менеджер, директор по исследованиям и т. Д.) Объединяются вместе.
Мы упростили чтение, разделив их двоеточием.
Вот как это выглядит сейчас.
Коммуникация
Слайды
Когда у вас есть сводная таблица или таблица на слайде и в ней много строк, у вас будет полоса прокрутки, чтобы увидеть все данные, перемещая ее вверх и вниз.
Но иногда вам нужно показать все строки на одном слайде без полосы прокрутки. Может быть, потому что вы хотите сделать снимок экрана и поместить его в другой документ (например, PowerPoint).
Чтобы решить эту проблему, мы вводим параметр «подгонять», который может принимать значения «высота» или «ширина» и заставляет сводную таблицу или таблицу точно умещаться в пределах данного слайда.
Вы всегда можете проверить, как это будет выглядеть в большом окне, выбрав «Открыть в веб-браузере» в раскрывающемся меню экспорта.
Параметр
Параметр «Логический тип» теперь поддерживает «Список значений» в качестве типа ввода!
Вы можете создать параметр как логический тип.
Вот и все!
Опять же, для получения более подробной информации ознакомьтесь с примечанием к выпуску.
Я настоятельно рекомендую вам скачать Exploratory v5.5.2 сегодня со страницы загрузки!
Кан, генеральный директор / исследовательский
Попробуйте Exploratory v5.5.2!
Обязательно скачайте v5.5 с нашей страницы загрузки сегодня!
Если у вас еще нет исследовательского аккаунта, зарегистрируйтесь на нашем сайте и получите 30-дневную бесплатную пробную версию без кредитной карты!
Если вы сейчас учитесь или учитесь в школе, это бесплатно!