Вопросы по теме 'text-segmentation'

Статистический подход к разделению слов
Я хочу решить проблему разделения слов (разобрать слова из длинной строки без пробелов). Например, мы хотим извлечь слова от somelongword до [some, long, word] . Мы можем добиться этого с помощью динамического подхода со словарем, но мы...
468 просмотров
schedule 22.09.2021

разделить абзац по первому предложению
У меня есть этот div, и я хочу добавить немного стиля к первому предложению. <div class="text">dfgdfg.asdhasd</div> Я пробую этот код, но не работает должным образом. var text = $('.text').html().split(".")[0]+".";...
2693 просмотров
schedule 04.11.2021

Python - как извлечь предложения, содержащие знак цитирования?
text = "Trondheim is a small city with a university and 140000 inhabitants. Its central bus systems has 42 bus lines, serving 590 stations, with 1900 (departures per) day in average. T h a t gives approximately 60000 scheduled bus station passings...
210 просмотров
schedule 25.10.2021

Сегментация предложений с использованием регулярных выражений
У меня есть несколько текстовых (SMS) сообщений, и я хочу сегментировать их, используя точку ('.') в качестве разделителя. Я не могу обрабатывать следующие типы сообщений. Как я могу сегментировать эти сообщения, используя Regex в Python. Перед...
1571 просмотров
schedule 01.04.2022

Устранение неоднозначности границ независимых предложений и сегментация независимых предложений - какие инструменты для этого?
Я помню, как давно просмотрел раздел сегментации предложений на сайте NLTK. Я использую грубую текстовую замену «точки» «пробел» на «точку» «перенос строки вручную», чтобы добиться сегментации предложения, например, с заменой Microsoft Word ( . ->...
3707 просмотров
schedule 20.04.2022

преобразовать абзац в предложение с помощью Perl
Я занимаюсь программированием на Perl. Мне нужно прочитать абзац и распечатать каждое предложение в виде строки. Кто-нибудь знает, как это сделать? Ниже мой код: #! /C:/Perl64/bin/perl.exe use utf8; if (! open(INPUT, '< text1.txt')){...
2993 просмотров
schedule 06.06.2022

Сегментация текста на основе прямого предложения
Предположим, у меня есть такой файл docx: Когда я был маленьким мальчиком, мой отец взял меня в город, чтобы посмотреть марширующий оркестр. Он сказал: «Сынок, когда ты вырастешь, ты будешь спасителем сломленных?». Отец сел рядом со мной,...
158 просмотров
schedule 04.06.2022

Обнаружение границ предложения в HTML
Мне нужно определить границы предложений в HTML. Существует множество программ для определения границ предложений (я использую java.text.BreakIterator), но все они предполагают обычный текст. HTML богаче этого и включает в себя некоторые подсказки о...
522 просмотров
schedule 13.06.2022

Извлечь предложение Python, содержащее слово
Я пытаюсь извлечь из текста все предложения, содержащие указанное слово. txt="I like to eat apple. Me too. Let's go buy some apples." txt = "." + txt re.findall(r"\."+".+"+"apple"+".+"+"\.", txt) но он возвращает меня: [".I like to eat...
28636 просмотров
schedule 17.06.2022

как извлечь целое предложение по совпадению одного слова в строке?
Итак, у меня есть целая строка (около 10 тыс. символов), а затем я ищу слово (или несколько слов) в этой строке. С regex(word).Matches(scrappedstring) . Но как это сделать, чтобы извлечь все предложение, содержащее это слово. Я думал взять...
3969 просмотров
schedule 29.06.2022

Как я могу исправить эту проблему с памятью в моем алгоритме максимального соответствия с RealmSwift?
Я написал свою собственную функцию максимального соответствия в Swift, чтобы разделить китайские предложения на слова. Он работает нормально, за исключением того, что при аномально длинных предложениях использование памяти превышает 1 ГБ. Мне нужна...
209 просмотров
schedule 11.07.2022

Javascript-реализация сегментации текста UAX 29 Unicode?
Кто-нибудь знает о каких-либо реализациях JavaScript для UAX #29, сегментация текста Unicode ? Меня особенно интересуют границы слов . Я был полон надежд, когда наткнулся на XRegExp , но, похоже, он использует стандартную реализацию JavaScript...
868 просмотров
schedule 31.07.2022

Какие правила сегментации мы можем использовать в латинских языках для написания тестовых примеров?
Нам нужно написать тестовые примеры для логики сегментации для языков, основанных на латинице. несмотря на то, что я нашел много сайтов, документы для правил логики сегментации, связанные с этим я получил одну ссылку "...
46 просмотров
schedule 25.05.2023

Сегментация текста: разбиение слов на основе словаря
Задний план Разделите имена столбцов базы данных на эквивалентный текст на английском языке, чтобы заполнить словарь данных. Словарь английского языка создан на основе корпоративных документов, вики-сайтов и электронной почты. Словарь (...
7265 просмотров

Как получить номер предложения из ввода?
Кажется, трудно обнаружить границу предложения в тексте. Кавычки вроде .!? может использоваться для разделения предложений, но не настолько точен, поскольку могут быть двусмысленные слова и цитаты, такие как США, профессор или доктор....
275 просмотров
schedule 25.10.2022

Получите целое предложение в Юникоде
Я пытаюсь разобрать предложение типа Base: Lote Numero 1, Marcelo T de Alvear 500. Demanda: otras palabras. . Я хочу: сначала разделить текст по точкам, а затем использовать все, что стоит перед двоеточием, как label для предложения после...
760 просмотров
schedule 14.02.2023

Как в PHP сделать первую букву в верхнем регистре?
Возможный дубликат: Как отображать первую букву в верхнем регистре? PHP сделать первую букву первого слова в предложении заглавной Я хочу заглавную первую букву в предложении и после точки. Может кто подскажет как сделать?...
4709 просмотров
schedule 29.01.2023

Как перебрать предложение строки в Python?
Предположим, у меня есть строка text = "A compiler translates code from a source language" . Я хочу сделать две вещи: Мне нужно перебрать каждое слово и основу, используя библиотеку NLTK . Функция стемминга — PorterStemmer().stem_word(word)...
16935 просмотров
schedule 21.10.2022

Сегментация английских слов в НЛП?
Я новичок в области NLP, но мое текущее исследование требует некоторого синтаксического анализа текста (или извлечения ключевых слов) из URL-адресов, например. поддельный URL, http://ads.goole.com/appid/heads На мой синтаксический анализ...
5721 просмотров
schedule 18.08.2023

Использование Tesseract OCR только для сегментации символов
Я хочу выполнить сегментацию текста в печатном документе. Я уже сегментировал документ на сегментацию символов, но мне не удалось, когда я встретил какой-то трогательный персонаж. Я хочу использовать Tesseract OCR только для сегментации слова. Я...
1641 просмотров
schedule 03.07.2023