Список библиотек с открытым исходным кодом, отобранных нашими разработчиками!

Наборы справочных данных для тестирования

  1. http://www.cs.princeton.edu/courses/archive/fall13/cos226/assignments/autocomplete.html

За кулисами традиционных алгоритмов

За кулисами алгоритмов ML/DL

Рекомендации и библиотеки с открытым исходным кодом

  1. либ-фейс

lib-face реализует Подход-4, как упоминалось в сообщении блога. Общая стоимость запроса (TCQ) корпуса из «n» фраз для не более чем «k» часто встречающихся фраз, которые имеют общий префикс с предоставленной фразой, составляет O (k log n). Это почти лучшее, что можно сделать для такого требования. lib-face также предоставляет возможность переключения на использование другого (более быстрого) алгоритма, который приводит к времени выполнения каждого запроса O (k log k).

2. typeahead.js

Вдохновленная функцией автозаполнения поиска twitter.com, typeahead.js — это гибкая библиотека JavaScript, которая обеспечивает прочную основу для создания надежных заголовков.

3. Система автозаполнения

Система автозаполнения с использованием графовой базы данных Neo4j для хранения данных и обеспечения отказоустойчивости. Вернуть лучшие предложения пользователю.

Поддержка функций

  • Установить подключение серверов приложений к базам данных Neo4j, в которых хранятся термины, счетчики и другая информация.
  • API для поиска любой фразы на английском языке и возврата лучших предложений. Автокоррекция неверных пользовательских данных.
  • API для удаления неуместных фраз.
  • API для создания новых серверов из баз данных Neo4j.
  • Используйте передовые методы ведения журналов для отслеживания шаблонов использования.
  • Сериализация и десериализация серверов.

4. Прогностический

Библиотека предсказания слов на основе словаря JavaScript с возможностью самообучения.

5. Мастодонт

Генерация статистики

Для создания бинарного словаря нам нужны данные, созданные из N-Gram Statistics Package (NSP), доступного по адресу http://www.d.umn.edu/~tpederse/nsp.html. Для этой цели служит скрипт generate_stats.sh в папке scripts/.

6. word2vec

Этот инструмент обеспечивает эффективную реализацию архитектур непрерывного набора слов и пропуска грамм для вычисления векторных представлений слов. Эти представления могут впоследствии использоваться во многих приложениях для обработки естественного языка и для дальнейших исследований.

7. Генсим

Gensim начинался как набор различных скриптов Python для Чешской цифровой математической библиотеки dml.cz в 2008 году, где он служил для создания короткого списка статей, наиболее похожих на данную статью (gensim = создать подобное). Я также хотел попробовать эти причудливые Скрытые семантические методы, но библиотеки, которые реализовали необходимые вычисления, были не очень интересными для работы.

8. Быстрый текст

Модели

Фрагмент кода

  1. Автозаполнение со структурой данных trie в Python

Вывод

2. Попробуйте реализовать структуру данных с помощью Javascript.

Отмечено

  1. Генерация текста и предсказание слов с использованием RNN