В настоящее время я изучаю машинное обучение, так как думаю, что это может помочь решить мою проблему. Однако я не уверен, какие методы мне следует применить для решения моей проблемы. Я заранее прошу прощения за то, что, вероятно, недостаточно знаю об этой области, чтобы даже задать правильный вопрос.
Я хочу извлечь важные части схемы вязания (сам узор, а не все вступление и тому подобное). Например, я хотел бы накормить эту веб-страницу в мою программу и получи что-то вроде этого:
{
title: "Boot Style Red and White Baby Booties for Cold Weather"
directions: "
Right Bootie.
Cast on (31, 43) with white color.
Rows (1, 3, 5, 7, 9, 10, 11): K.
Row 2: K1, M1, (K14, K20), M1, K1, M1, (K14, K20), M1, K1. (35, 47 sts)
Row 4: K2, M1, (K14, K20), M1, K3, M1, (K14, K20), M1, K2. (39, 51 sts)
Row 6: K3, M1, (K14, K20), M1, K5, M1, (K14, K20), M1, K3. (43, 55 sts)
..."
}
Я читал об извлечении более мелких частей, таких как предложения и слова, а также о таких вещах, как распознавание именованных сущностей, но все они, похоже, сосредоточены на очень небольших частях текста.
В настоящее время я думаю об использовании обучения с учителем, но я также очень не уверен в том, как извлекать элементы из текста. Наивные методы, такие как использование букв, слов или даже предложений в качестве функций, кажутся недостаточно актуальными, чтобы давать какие-либо удовлетворительные результаты (а также было бы множество функций, если я не использую какую-либо выборку), но что действительно ли важны особенности для того, чтобы узнать, какие части и что есть в схеме вязания?
Может ли кто-нибудь указать мне правильное направление алгоритмов и методов извлечения больших частей текста?