Я понимаю, что ввод ИНС должен быть нормализован, стандартизирован и т. Д. Не говоря уже об особенностях и моделях различных ИНС, как я могу предварительно обработать текст в кодировке UTF-8 в диапазоне {0,1} или, альтернативно, в диапазоне {-1, 1}, прежде чем он будет передан в нейронные сети? Я искал это в Google, но не могу найти никакой информации (возможно, я использую неправильный термин).
- Имеет ли это смысл?
- Разве не так препроцессируют текст для нейронных сетей?
- Есть ли альтернативы?
Обновление от ноября 2013 г.
Я давно считаю правильным ответ Пита. Однако у меня есть серьезные сомнения, в основном из-за недавних исследований, которые я проводил в области символических знаний и ИНС.
Дарио Флореано и Клаудио Маттиусси в своей книге объясняют, что такая обработка действительно возможна, с помощью распределенного кодирования.
Действительно, если вы попробуете поискать в Google, вы обнаружите множество статей и статей по нейробиологии о том, как распределенное кодирование предполагается использовать мозгом для кодирования символического знания.
Теуво Кохонен в своей статье Самоорганизующиеся карты объясняет:
Можно подумать, что применение законов нейронной адаптации к набору символов (рассматриваемому как набор векторных переменных) может создать топографическую карту, которая отображает логические расстояния между символами. Однако возникает проблема, заключающаяся в другом характере символов по сравнению с непрерывными данными. Для последних сходство всегда проявляется естественным образом в виде метрических различий между их непрерывными кодировками. Это больше не верно для дискретных символических элементов, таких как слова, для которых не определена метрика. По самой природе символа его значение отделено от его кодировки.
Однако Кохонену удалось справиться с символической информацией в SOM!
Кроме того, профессор д-р Альфред Ульч в своей статье Интеграция нейронных сетей с обработкой символических знаний конкретно касается того, как обрабатывать символические знания (например, текст) в ИНС. Ultsch предлагает следующие методологии обработки символических знаний: нейронное приближенное рассуждение, нейронное объединение, самоанализ и интегрированное получение знаний. Хотя мало информации можно найти о тех, в Google Scholar или где-либо еще по этому вопросу.
Пит в своем ответе прав насчет семантики. Семантика в ИНС обычно отключена. Однако следующая ссылка дает представление о том, как исследователи использовали RBM, обученные распознавать сходство в семантике различных входных слов, поэтому не должно быть невозможным иметь семантику, но для этого потребуется многоуровневый подход или вторичная ИНС, если требуется семантика. .
Обработка естественного языка с помощью субсимволических нейронных сетей, Ристо Мииккулайнен, 1997 г. Обучение ограниченных машин Больцмана на наблюдениях за словами, Г.Э.Даль, Райан П. Адамс, Х. Рарошель, 2012 < / а>
Обновление от января 2021 г.
В области НЛП и глубокого обучения наблюдается возрождение исследований в последние несколько лет, и с тех пор, как я задал этот вопрос. Сейчас существуют модели машинного обучения, которые решают то, что я пытался достичь разными способами.
Для всех, кто задается этим вопросом и задается вопросом о том, как предварительно обработать текст в глубоком обучении или нейронных сетях, вот несколько полезных тем, ни одна из которых не является академической, но простой для понимания и которая должна помочь вам приступить к решению аналогичных задач:
- Модели векторного пространства
- Трансформаторы
- Рекуррентные и сверточные сети для классификации текста
- встраивание слов
- Предварительная обработка текста
В то время, когда я задавал этот вопрос, собирались начать использовать RNN, CNN и VSM, в настоящее время большинство фреймворков глубокого обучения поддерживают обширную поддержку NLP. Надеюсь, что это поможет.