Список библиотек с открытым исходным кодом, отобранных нашими разработчиками!
Наборы справочных данных для тестирования
За кулисами традиционных алгоритмов
- Суффиксное дерево
- Корневое дерево
- Направленный ациклический граф слов (DAWG)
- Ациклические детерминированные конечные автоматы
- NGram 2 3
- Хэш-три
- Детерминированные конечные автоматы
- Джуди Массив
- Алгоритм поиска
- Расширяемое хеширование
- Отображенное дерево хэш-массива
- Префиксное хеш-дерево
- Взрывная сортировка
- Алгоритм Лулео
- Кодирование Хаффмана
- Ктри
- ХАТ-три
За кулисами алгоритмов ML/DL
- Сверточные нейронные сети
- ЛСТМ 2
- Марковские модели
- Байесовский РНС
- Рекуррентные нейронные сети
- Рекуррентная нейронная сеть LSTM
Рекомендации и библиотеки с открытым исходным кодом
lib-face реализует Подход-4, как упоминалось в сообщении блога. Общая стоимость запроса (TCQ) корпуса из «n» фраз для не более чем «k» часто встречающихся фраз, которые имеют общий префикс с предоставленной фразой, составляет O (k log n). Это почти лучшее, что можно сделать для такого требования. lib-face также предоставляет возможность переключения на использование другого (более быстрого) алгоритма, который приводит к времени выполнения каждого запроса O (k log k).
Вдохновленная функцией автозаполнения поиска twitter.com, typeahead.js — это гибкая библиотека JavaScript, которая обеспечивает прочную основу для создания надежных заголовков.
3. Система автозаполнения
Система автозаполнения с использованием графовой базы данных Neo4j для хранения данных и обеспечения отказоустойчивости. Вернуть лучшие предложения пользователю.
Поддержка функций
- Установить подключение серверов приложений к базам данных Neo4j, в которых хранятся термины, счетчики и другая информация.
- API для поиска любой фразы на английском языке и возврата лучших предложений. Автокоррекция неверных пользовательских данных.
- API для удаления неуместных фраз.
- API для создания новых серверов из баз данных Neo4j.
- Используйте передовые методы ведения журналов для отслеживания шаблонов использования.
- Сериализация и десериализация серверов.
Библиотека предсказания слов на основе словаря JavaScript с возможностью самообучения.
5. Мастодонт
Генерация статистики
Для создания бинарного словаря нам нужны данные, созданные из N-Gram Statistics Package (NSP), доступного по адресу http://www.d.umn.edu/~tpederse/nsp.html. Для этой цели служит скрипт generate_stats.sh
в папке scripts/
.
6. word2vec
Этот инструмент обеспечивает эффективную реализацию архитектур непрерывного набора слов и пропуска грамм для вычисления векторных представлений слов. Эти представления могут впоследствии использоваться во многих приложениях для обработки естественного языка и для дальнейших исследований.
7. Генсим
Gensim начинался как набор различных скриптов Python для Чешской цифровой математической библиотеки dml.cz в 2008 году, где он служил для создания короткого списка статей, наиболее похожих на данную статью (gensim = создать подобное). Я также хотел попробовать эти причудливые Скрытые семантические методы, но библиотеки, которые реализовали необходимые вычисления, были не очень интересными для работы.
Модели
- Последние современные векторы английских слов.
- Векторы слов для 157 языков, обученных на Wikipedia и Crawl.
- Модели языковая идентификация и различные контролируемые задачи.
Фрагмент кода
- Автозаполнение со структурой данных trie в Python
Вывод
2. Попробуйте реализовать структуру данных с помощью Javascript.