Все вопросы: [text-parsing]
44 вопросов
Как обнаружить табличные данные из различных источников
В экспериментальном проекте, над которым я работаю, я хочу иметь возможность просматривать текстовые данные и определять, содержат ли они данные в табличном формате.Конечно, есть много случаев, которые могут выглядеть как табличные данные, поэтому мне было интересно, какой алгоритм мне нужно исс...
фрагменты / парсинг текста с использованием NLTK
Я пытаюсь разобрать текст и построить его схему, как предложение.Я новичок в NLTK и пытаюсь найти что-то в NLTK, что поможет мне в этом.Пока я видел nltk.ne_chunk и nltk.pos_tag. Я считаю, что они не очень полезны, и я не могу найти никакой хорошей онлайн-документации. Я также пробовал исполь...
Используете streamreader для чтения строки, содержащей это "//"?
Прочтите текстовый файл, в котором любая строка начинается с "//", пропустите эту строку и перейдите к следующей строке. Входной текстовый файл с отдельными разделами.Найдите построчный процесс и эту отметку.
Определите места, упомянутые в коротком (от 500 до 1000 слов) фрагменте текста, используя PHP
Я хотел бы найти способ взять фрагмент текста, введенного пользователем, и определить, какие адреса на карте упоминаются в тексте. Я был бы рад использовать бесплатный веб-сервис, если он существует, или сценарий, который не потребляет слишком много ресурсов. Один из способов, которым я могу ...
Как выполнить сопоставление с образцом Erlang с помощью регулярных выражений?
Когда я пишу программы на Erlang, которые выполняют синтаксический анализ текста, я часто сталкиваюсь с ситуациями, когда мне хотелось бы найти соответствие шаблону с помощью регулярного выражения. Например, я хотел бы сделать что-то вроде этого, где ~ - это «выдуманный» оператор сопоставлени...
Разбор блоков в скобках Python
Каким будет лучший способ в Python разбирать фрагменты текста, содержащиеся в соответствующих скобках? "{ { a } { b } { { { c } } } }" сначала должен вернуть: [ "{ a } { b } { { { c } } }" ] помещая это в качестве ввода, должно возвращаться: [ "a", "b", "{ { c } }" ] который...
Разбор строки Java - {k1 = v1, k2 = v2, ...}
У меня есть следующая строка, которая, вероятно, будет содержать ~ 100 записей: String foo = "{k1=v1,k2=v2,...}" и я хочу написать следующую функцию: String getValue(String key){ // return the value associated with this key } Я хотел бы сделать это без использования какой-либо ...
Группы захвата регулярных выражений в Oracle PL / SQL
Я пытаюсь преобразовать текст произвольной формы в нечто более структурированное.У меня есть сложный шаблон, который соответствует подавляющему большинству (значительно превышающему минимально допустимый предел) доступных данных, и я хотел бы использовать его для помощи в структурировании данных...
Replacing text function in php
I want to clean up some parsed text such as \n the said \r\n\r\n\r\n I look in your eyes my dear\r\n\r\nI see green rolling Forests\r\n\r\nI see the far away Sky\r\n\r\nThey turn into the rain\r\n\r\n\r\nI see high soaring eagles... more\n So I want to get rid of the "\n", "\r\n", "\r\n\r\n", "...
Format ParseException with JavaCC
I was wondering how could it be possible to format in a human-readable format a ParseException thrown by JavaCC: in fact it includes fields such asbeginLine, beginColumn, endColumn, endLine in the token reference of the exception, but not the reference to the source parsed. Thanks! :)
SimpleParse non-deterministic grammar until runtime
I'm working on a basic networking protocol in Python, which should be able to transfer both ASCII strings (read: EOL-terminated) and binary data. For the latter to be possible, I chose to create the grammar such that it contains the number of bytes to come which are going to be binary. For Simpl...
Simple get string (ignore numbers at end) in C#
I figure regex is overkill also it takes me some time to write some code (i guess i should learn now that i know some regex). Whats the simplest way to separate the string in an alphanumeric string? It will always be LLLLDDDDD. I only want the letters(l's), typically its only 1 or 2 letters.
C# - Trimming string from first null terminator and onwards
I have a C# string "RIP-1234-STOP\0\0\0\b\0\0\0???|B?Mp?\0\0\0" returned from a call to a native driver. How can I trim all characters from first null terminator '\0\ onwards. In this case, I just would like to have "RIP-1234-STOP". Thanks.
What is a Surefire way to get a string Word Count in C#
I am not sure how to go about this. Right now I am counting the spaces to get the word count of my string but if there is a double space the word count will be inaccurate. Is there a better way to do this?
How to find Title case phrases from a passage or bunch of paragraphs
How do I parse sentence case phrases from a passage. For example from this passage Conan Doyle said that the character of Holmes was inspired by Dr. Joseph Bell, for whom Doyle had worked as a clerk at the Edinburgh Royal Infirmary. Like Holmes, Bell was noted for drawing large conclusions from...
Parse 'family' names into people + last name with regex
Given the following string, I'd like to parse into a list of first names + a last name: Peter-Paul, Mary & Joël Van der Winkel (and the simpler versions) I'm trying to work out if I can do this with a regex. I've got this far (?:([^, &]+))[, &]*(?:([^, &]+)) But the problem her...
Character strings in Fortran: Portable LEN_TRIM and LNBLNK?
I need a portable function/subroutine to locate the position of the last non-blank character in a string. I've found two options: LEN_TRIM and LNBLNK. However, different compilers seem to have different standards. The official documentation for the following compilers suggests that LEN_TRIM i...
How can I split out individual column values from each line in a text file?
I have lines in an ASCII text file that I need to parse. The columns are separated by a variable number of spaces, for instance: column1 column2 column3 How would i split this line to return an array of only the values? thanks
library to parse a relative date (like google calendar can) in c#
I'm asking the same question as this: How can I parse relative dates with Perl? but in C#. Sorry if this is a duplicate, ill delete if so. Does such a library exist? Thanks
Create Great Parser - Extract Relevant Text From HTML/Blogs
I'm trying to create a generalized HTML parser that works well on Blog Posts. I want to point my parser at the specific entrie's URL and get back clean text of the post itself. My basic approach (from python) has been to use a combination of BeautifulSoup / Urllib2, which is okay, but it assumes ...
Текстовый анализ больших документов
У меня есть проект, в котором мне нужно сравнить документы, состоящие из нескольких глав, со вторым документом, чтобы определить их сходство. Проблема в том, что я не знаю, как это сделать, какие существуют подходы и есть ли у них какие-либо библиотеки. Мой первый вопрос ... что похожего? Кол...
Code Golf: быстрое создание списка ключевых слов из текста, включая количество экземпляров
Я уже разработал это решение для себя с помощью PHP, но мне любопытно, как это можно сделать по-другому - даже лучше. В первую очередь меня интересуют два языка: PHP и Javascript, но мне было бы интересно узнать, как быстро это можно сделать и на любом другом крупном языке сегодня (в основном C ...
Есть ли умный способ синтаксического анализа текстовых списков в HTML?
Вопрос: есть ли умный способ для синтаксического анализа текстовых списков в HTML? Или мы должны прибегнуть к эзотерическим рекурсивным методам или к грубой силе? Я уже давно думаю об этом. В своих размышлениях я снова и снова возвращался к грубым и странным рекурсивным методам ... но эт...
Вычисление строки простых математических выражений
Задача Вот проблема (моего собственного изобретения, хотя я не удивлюсь, если он ранее появлялся в других местах в Интернете). Напишите функцию, которая принимает один аргумент, который является строковое представление простого математическое выражение и оценивает это как значен...
Проблемы с str.find ()
Я пытаюсь использовать str.find (), но при этом возникает ошибка. Что я делаю не так? import codecs def countLOC(inFile): """ Receives a file and then returns the amount of actual lines of code by not counting commented or blank lines """ LOC = 0 ...
Разбор текстового файла на C # с пропуском некоторого содержимого
Я пытаюсь разобрать текстовый файл, у которого есть заголовок и тело. В заголовке этого файла есть ссылки на номера строк в разделах тела. Например: SECTION_A 256 SECTION_B 344 SECTION_C 556 Это означает, что SECTION_A начинается в строке 256. Как лучше всего разобрать этот заголовок в...
Как суммировать цифры текста в ячейке?
У меня есть таблица Excel Требуется просуммировать цифры в ячейках столбца «C» и поместить значение в соответствующую ячейку столбца «B» (в моем примере 0,25 + 1 + 0,25 + 1 = 2,5). Значения в столбце "C" могут измениться. Требуется обновить значение в «B», как только изменится ячейка в...
Подход к извлечению текста PDF с использованием OCR
Пытался ли кто-нибудь извлечь текст из PDF с помощью библиотеки OCR и Java? Какую библиотеку вы считаете самой надежной для извлечения текста. Большинство подходов, которые я видел (tesseract, GOCR), представляют собой библиотеки C, для которых потребуется написать некоторый код JNI. Я знаком...
Как мне определить, какой разделитель используется в текстовом файле?
Мне нужно уметь анализировать файлы CSV и TSV. Я не могу полагаться на то, что пользователи узнают разницу, поэтому я бы не хотел просить пользователя выбрать тип. Есть ли простой способ определить, какой разделитель используется? Один из способов - прочитать каждую строку, посчитать табуляци...
Разбор строки, извлечение цифр и букв
Какой самый простой способ разобрать строку и извлечь число и букву? У меня есть строка, которая может быть в следующем формате (число | буква или буква | число), например «10A», «B5», «C10», «1G» и т. Д. Мне нужно извлечь 2 части, то есть «10A» -> «10» и «A». Обновление: спасибо всем...