Вопросы по теме 'text-segmentation'
Статистический подход к разделению слов
Я хочу решить проблему разделения слов (разобрать слова из длинной строки без пробелов). Например, мы хотим извлечь слова от somelongword до [some, long, word] .
Мы можем добиться этого с помощью динамического подхода со словарем, но мы...
468 просмотров
schedule
22.09.2021
разделить абзац по первому предложению
У меня есть этот div, и я хочу добавить немного стиля к первому предложению.
<div class="text">dfgdfg.asdhasd</div>
Я пробую этот код, но не работает должным образом.
var text = $('.text').html().split(".")[0]+".";...
2693 просмотров
schedule
04.11.2021
Python - как извлечь предложения, содержащие знак цитирования?
text = "Trondheim is a small city with a university and 140000 inhabitants. Its central bus systems has 42 bus lines, serving 590 stations, with 1900 (departures per) day in average. T h a t gives approximately 60000 scheduled bus station passings...
210 просмотров
schedule
25.10.2021
Сегментация предложений с использованием регулярных выражений
У меня есть несколько текстовых (SMS) сообщений, и я хочу сегментировать их, используя точку ('.') в качестве разделителя. Я не могу обрабатывать следующие типы сообщений. Как я могу сегментировать эти сообщения, используя Regex в Python.
Перед...
1571 просмотров
schedule
01.04.2022
Устранение неоднозначности границ независимых предложений и сегментация независимых предложений - какие инструменты для этого?
Я помню, как давно просмотрел раздел сегментации предложений на сайте NLTK.
Я использую грубую текстовую замену «точки» «пробел» на «точку» «перенос строки вручную», чтобы добиться сегментации предложения, например, с заменой Microsoft Word ( . ->...
3707 просмотров
schedule
20.04.2022
преобразовать абзац в предложение с помощью Perl
Я занимаюсь программированием на Perl. Мне нужно прочитать абзац и распечатать каждое предложение в виде строки.
Кто-нибудь знает, как это сделать?
Ниже мой код:
#! /C:/Perl64/bin/perl.exe
use utf8;
if (! open(INPUT, '< text1.txt')){...
2993 просмотров
schedule
06.06.2022
Сегментация текста на основе прямого предложения
Предположим, у меня есть такой файл docx:
Когда я был маленьким мальчиком, мой отец взял меня в город, чтобы посмотреть марширующий оркестр. Он сказал: «Сынок, когда ты вырастешь, ты будешь спасителем сломленных?». Отец сел рядом со мной,...
158 просмотров
schedule
04.06.2022
Обнаружение границ предложения в HTML
Мне нужно определить границы предложений в HTML. Существует множество программ для определения границ предложений (я использую java.text.BreakIterator), но все они предполагают обычный текст. HTML богаче этого и включает в себя некоторые подсказки о...
522 просмотров
schedule
13.06.2022
Извлечь предложение Python, содержащее слово
Я пытаюсь извлечь из текста все предложения, содержащие указанное слово.
txt="I like to eat apple. Me too. Let's go buy some apples."
txt = "." + txt
re.findall(r"\."+".+"+"apple"+".+"+"\.", txt)
но он возвращает меня:
[".I like to eat...
28636 просмотров
schedule
17.06.2022
как извлечь целое предложение по совпадению одного слова в строке?
Итак, у меня есть целая строка (около 10 тыс. символов), а затем я ищу слово (или несколько слов) в этой строке. С regex(word).Matches(scrappedstring) .
Но как это сделать, чтобы извлечь все предложение, содержащее это слово. Я думал взять...
3969 просмотров
schedule
29.06.2022
Как я могу исправить эту проблему с памятью в моем алгоритме максимального соответствия с RealmSwift?
Я написал свою собственную функцию максимального соответствия в Swift, чтобы разделить китайские предложения на слова. Он работает нормально, за исключением того, что при аномально длинных предложениях использование памяти превышает 1 ГБ. Мне нужна...
209 просмотров
schedule
11.07.2022
Javascript-реализация сегментации текста UAX 29 Unicode?
Кто-нибудь знает о каких-либо реализациях JavaScript для UAX #29, сегментация текста Unicode ? Меня особенно интересуют границы слов .
Я был полон надежд, когда наткнулся на XRegExp , но, похоже, он использует стандартную реализацию JavaScript...
868 просмотров
schedule
31.07.2022
Какие правила сегментации мы можем использовать в латинских языках для написания тестовых примеров?
Нам нужно написать тестовые примеры для логики сегментации для языков, основанных на латинице. несмотря на то, что я нашел много сайтов, документы для правил логики сегментации, связанные с этим я получил одну ссылку "...
46 просмотров
schedule
25.05.2023
Сегментация текста: разбиение слов на основе словаря
Задний план
Разделите имена столбцов базы данных на эквивалентный текст на английском языке, чтобы заполнить словарь данных. Словарь английского языка создан на основе корпоративных документов, вики-сайтов и электронной почты. Словарь (...
7265 просмотров
schedule
28.04.2023
Как получить номер предложения из ввода?
Кажется, трудно обнаружить границу предложения в тексте. Кавычки вроде .!? может использоваться для разделения предложений, но не настолько точен, поскольку могут быть двусмысленные слова и цитаты, такие как США, профессор или доктор....
275 просмотров
schedule
25.10.2022
Получите целое предложение в Юникоде
Я пытаюсь разобрать предложение типа Base: Lote Numero 1, Marcelo T de Alvear 500. Demanda: otras palabras. . Я хочу: сначала разделить текст по точкам, а затем использовать все, что стоит перед двоеточием, как label для предложения после...
760 просмотров
schedule
14.02.2023
Как в PHP сделать первую букву в верхнем регистре?
Возможный дубликат: Как отображать первую букву в верхнем регистре? PHP сделать первую букву первого слова в предложении заглавной
Я хочу заглавную первую букву в предложении и после точки. Может кто подскажет как сделать?...
4709 просмотров
schedule
29.01.2023
Как перебрать предложение строки в Python?
Предположим, у меня есть строка text = "A compiler translates code from a source language" . Я хочу сделать две вещи:
Мне нужно перебрать каждое слово и основу, используя библиотеку NLTK . Функция стемминга — PorterStemmer().stem_word(word)...
16935 просмотров
schedule
21.10.2022
Сегментация английских слов в НЛП?
Я новичок в области NLP, но мое текущее исследование требует некоторого синтаксического анализа текста (или извлечения ключевых слов) из URL-адресов, например. поддельный URL,
http://ads.goole.com/appid/heads
На мой синтаксический анализ...
5721 просмотров
schedule
18.08.2023
Использование Tesseract OCR только для сегментации символов
Я хочу выполнить сегментацию текста в печатном документе. Я уже сегментировал документ на сегментацию символов, но мне не удалось, когда я встретил какой-то трогательный персонаж. Я хочу использовать Tesseract OCR только для сегментации слова. Я...
1641 просмотров
schedule
03.07.2023