Я пытаюсь разработать классификатор текста, который будет классифицировать фрагмент текста как частный или общедоступный. Возьмите медицинскую или медицинскую информацию в качестве примера домена. Типичный классификатор, о котором я могу думать, рассматривает ключевые слова в качестве основного отличительного признака, верно? Как насчет сценария, подобного приведенному ниже? Что, если оба фрагмента текста содержат похожие ключевые слова, но имеют разное значение?
Следующий фрагмент текста раскрывает чью-то личную ситуацию (со здоровьем) (у пациента рак):
Я был в двух clinics
и моем pcp
. У меня была ultrasound
только для того, чтобы сказать, что это разрешающая cyst
или hematoma
, но она становится больше и начинает делать мою ногу ache
. PCP
сказал, что это не может быть cyst
, потому что вначале он был слишком большим, и я клянусь, что у меня НИКОГДА не было injured
ноги, даже bump
. Я теперь боюсь и боюсь cancer
. Немного дискомфортное ощущение я заметил только при приседании около 9 месяцев назад. 3 месяца назад я присел на корточки, чтобы убрать белье, и это вроде как hurt
. pain
побудило меня осмотреть мой leg
, и именно тогда я заметил lump
в нижней части моей икры muscle
, и сгибание сделало его только более заметным. В конце концов, после четырех посещений clinic
, ultrasound
и одного pcp
результат кажется положительным, и масса увеличивается.
[Личное] (Правильная классификация)
Следующий фрагмент текста представляет собой комментарий врача, который определенно не раскрывает состояние здоровья. Он знакомит с недостатками типичной модели классификатора:
Не пугайтесь и не принимайте ничего плохого за cancer
. Я прошел через несколько случаев в моем clinic
, и это кажется мне знакомым. Как вы упомянули, это может быть cyst
или hematoma
, и он становится больше, поэтому ему нужны дополнительные diagnosis
, такие как biopsy
. Наличие ache
в этой области или размер lump
на самом деле ничего не говорит bad
. Вам следует посетить специализированные clinics
еще несколько раз и пройти определенные тесты, такие как biopsy
, CT scan
, pcp
и ultrasound
, прежде чем lump
станет больше.
[Частное] (Это неправильная классификация. Должно быть [ Общедоступно])
Второй абзац был классифицирован как частный всеми моими текущими классификаторами по очевидной причине. Сходные ключевые слова, допустимые последовательности слов, наличие субъектов, казалось, сильно запутывали классификатор. Даже оба содержания содержат такие темы, как I
, You
(существительное, местоимение) и т. д. Я думал о переходе от Word2Vec к Doc2Vec, от определения значения к семантическим вложениям, но не могу придумать подход к решению, который лучше всего подходит для этой проблемы.
Любая идея, каким образом я должен решить проблему классификации? Заранее спасибо.
Прогресс на данный момент:
Данные я собрал из общедоступного источника, где пациенты/пострадавшие обычно публикуют свои собственные ситуации, а врачи/доброжелатели отвечают на них. При сканировании я предположил, что сообщения принадлежат моему частному классу, а комментарии принадлежат общедоступному классу. В целом я начал с 5K+5K постов/комментариев и получил около 60% с наивным байесовским классификатором без какой-либо серьезной предварительной обработки. Скоро попробую нейронную сеть. Но прежде чем вводить какой-либо классификатор, я просто хочу знать, как я могу лучше предварительно обработать, чтобы присвоить разумные веса любому классу для лучшего различия.
public
иprivate
- person igrinis   schedule 10.03.2019