1
голосов
3ответов
131 просмотров

Как обнаружить табличные данные из различных источников

В экспериментальном проекте, над которым я работаю, я хочу иметь возможность просматривать текстовые данные и определять, содержат ли они данные в табличном формате.Конечно, есть много случаев, которые могут выглядеть как табличные данные, поэтому мне было интересно, какой алгоритм мне нужно исс...

0
голосов
1ответов
1821 просмотров

фрагменты / парсинг текста с использованием NLTK

Я пытаюсь разобрать текст и построить его схему, как предложение.Я новичок в NLTK и пытаюсь найти что-то в NLTK, что поможет мне в этом.Пока я видел nltk.ne_chunk и nltk.pos_tag. Я считаю, что они не очень полезны, и я не могу найти никакой хорошей онлайн-документации. Я также пробовал исполь...

0
голосов
3ответов
1118 просмотров

Используете streamreader для чтения строки, содержащей это "//"?

Прочтите текстовый файл, в котором любая строка начинается с "//", пропустите эту строку и перейдите к следующей строке. Входной текстовый файл с отдельными разделами.Найдите построчный процесс и эту отметку.

1
голосов
3ответов
149 просмотров

Определите места, упомянутые в коротком (от 500 до 1000 слов) фрагменте текста, используя PHP

Я хотел бы найти способ взять фрагмент текста, введенного пользователем, и определить, какие адреса на карте упоминаются в тексте. Я был бы рад использовать бесплатный веб-сервис, если он существует, или сценарий, который не потребляет слишком много ресурсов. Один из способов, которым я могу ...

7
голосов
6ответов
10541 просмотров

Как выполнить сопоставление с образцом Erlang с помощью регулярных выражений?

Когда я пишу программы на Erlang, которые выполняют синтаксический анализ текста, я часто сталкиваюсь с ситуациями, когда мне хотелось бы найти соответствие шаблону с помощью регулярного выражения. Например, я хотел бы сделать что-то вроде этого, где ~ - это «выдуманный» оператор сопоставлени...

32
голосов
9ответов
30665 просмотров

Разбор блоков в скобках Python

Каким будет лучший способ в Python разбирать фрагменты текста, содержащиеся в соответствующих скобках? "{ { a } { b } { { { c } } } }" сначала должен вернуть: [ "{ a } { b } { { { c } } }" ] помещая это в качестве ввода, должно возвращаться: [ "a", "b", "{ { c } }" ] который...

8
голосов
7ответов
5043 просмотров

Разбор строки Java - {k1 = v1, k2 = v2, ...}

У меня есть следующая строка, которая, вероятно, будет содержать ~ 100 записей: String foo = "{k1=v1,k2=v2,...}" и я хочу написать следующую функцию: String getValue(String key){ // return the value associated with this key } Я хотел бы сделать это без использования какой-либо ...

0
голосов
1ответов
6799 просмотров

Группы захвата регулярных выражений в Oracle PL / SQL

Я пытаюсь преобразовать текст произвольной формы в нечто более структурированное.У меня есть сложный шаблон, который соответствует подавляющему большинству (значительно превышающему минимально допустимый предел) доступных данных, и я хотел бы использовать его для помощи в структурировании данных...

1
голосов
2ответов
139 просмотров

Replacing text function in php

I want to clean up some parsed text such as \n the said \r\n\r\n\r\n I look in your eyes my dear\r\n\r\nI see green rolling Forests\r\n\r\nI see the far away Sky\r\n\r\nThey turn into the rain\r\n\r\n\r\nI see high soaring eagles... more\n So I want to get rid of the "\n", "\r\n", "\r\n\r\n", "...

1
голосов
3ответов
2114 просмотров

Format ParseException with JavaCC

I was wondering how could it be possible to format in a human-readable format a ParseException thrown by JavaCC: in fact it includes fields such asbeginLine, beginColumn, endColumn, endLine in the token reference of the exception, but not the reference to the source parsed. Thanks! :)

1
голосов
3ответов
352 просмотров

SimpleParse non-deterministic grammar until runtime

I'm working on a basic networking protocol in Python, which should be able to transfer both ASCII strings (read: EOL-terminated) and binary data. For the latter to be possible, I chose to create the grammar such that it contains the number of bytes to come which are going to be binary. For Simpl...

4
голосов
4ответов
5085 просмотров

Simple get string (ignore numbers at end) in C#

I figure regex is overkill also it takes me some time to write some code (i guess i should learn now that i know some regex). Whats the simplest way to separate the string in an alphanumeric string? It will always be LLLLDDDDD. I only want the letters(l's), typically its only 1 or 2 letters.

0
голосов
3ответов
1954 просмотров

C# - Trimming string from first null terminator and onwards

I have a C# string "RIP-1234-STOP\0\0\0\b\0\0\0???|B?Mp?\0\0\0" returned from a call to a native driver. How can I trim all characters from first null terminator '\0\ onwards. In this case, I just would like to have "RIP-1234-STOP". Thanks.

1
голосов
4ответов
476 просмотров

What is a Surefire way to get a string Word Count in C#

I am not sure how to go about this. Right now I am counting the spaces to get the word count of my string but if there is a double space the word count will be inaccurate. Is there a better way to do this?

1
голосов
2ответов
1024 просмотров

How to find Title case phrases from a passage or bunch of paragraphs

How do I parse sentence case phrases from a passage. For example from this passage Conan Doyle said that the character of Holmes was inspired by Dr. Joseph Bell, for whom Doyle had worked as a clerk at the Edinburgh Royal Infirmary. Like Holmes, Bell was noted for drawing large conclusions from...

1
голосов
2ответов
920 просмотров

Parse 'family' names into people + last name with regex

Given the following string, I'd like to parse into a list of first names + a last name: Peter-Paul, Mary & Joël Van der Winkel (and the simpler versions) I'm trying to work out if I can do this with a regex. I've got this far (?:([^, &]+))[, &]*(?:([^, &]+)) But the problem her...

2
голосов
3ответов
3605 просмотров

Character strings in Fortran: Portable LEN_TRIM and LNBLNK?

I need a portable function/subroutine to locate the position of the last non-blank character in a string. I've found two options: LEN_TRIM and LNBLNK. However, different compilers seem to have different standards. The official documentation for the following compilers suggests that LEN_TRIM i...

1
голосов
3ответов
2255 просмотров

How can I split out individual column values from each line in a text file?

I have lines in an ASCII text file that I need to parse. The columns are separated by a variable number of spaces, for instance: column1 column2 column3 How would i split this line to return an array of only the values? thanks

3
голосов
1ответов
632 просмотров

library to parse a relative date (like google calendar can) in c#

I'm asking the same question as this: How can I parse relative dates with Perl? but in C#. Sorry if this is a duplicate, ill delete if so. Does such a library exist? Thanks

22
голосов
2ответов
5738 просмотров

Create Great Parser - Extract Relevant Text From HTML/Blogs

I'm trying to create a generalized HTML parser that works well on Blog Posts. I want to point my parser at the specific entrie's URL and get back clean text of the post itself. My basic approach (from python) has been to use a combination of BeautifulSoup / Urllib2, which is okay, but it assumes ...

1
голосов
5ответов
336 просмотров

Текстовый анализ больших документов

У меня есть проект, в котором мне нужно сравнить документы, состоящие из нескольких глав, со вторым документом, чтобы определить их сходство. Проблема в том, что я не знаю, как это сделать, какие существуют подходы и есть ли у них какие-либо библиотеки. Мой первый вопрос ... что похожего? Кол...

12
голосов
13ответов
1276 просмотров

Code Golf: быстрое создание списка ключевых слов из текста, включая количество экземпляров

Я уже разработал это решение для себя с помощью PHP, но мне любопытно, как это можно сделать по-другому - даже лучше. В первую очередь меня интересуют два языка: PHP и Javascript, но мне было бы интересно узнать, как быстро это можно сделать и на любом другом крупном языке сегодня (в основном C ...

0
голосов
8ответов
404 просмотров

Есть ли умный способ синтаксического анализа текстовых списков в HTML?

Вопрос: есть ли умный способ для синтаксического анализа текстовых списков в HTML? Или мы должны прибегнуть к эзотерическим рекурсивным методам или к грубой силе? Я уже давно думаю об этом. В своих размышлениях я снова и снова возвращался к грубым и странным рекурсивным методам ... но эт...

76
голосов
43ответов
14871 просмотров

Вычисление строки простых математических выражений

Задача Вот проблема (моего собственного изобретения, хотя я не удивлюсь, если он ранее появлялся в других местах в Интернете). Напишите функцию, которая принимает один аргумент, который является строковое представление простого математическое выражение и оценивает это как значен...

1
голосов
2ответов
1319 просмотров

Проблемы с str.find ()

Я пытаюсь использовать str.find (), но при этом возникает ошибка. Что я делаю не так? import codecs def countLOC(inFile): """ Receives a file and then returns the amount of actual lines of code by not counting commented or blank lines """ LOC = 0 ...

1
голосов
5ответов
4583 просмотров

Разбор текстового файла на C # с пропуском некоторого содержимого

Я пытаюсь разобрать текстовый файл, у которого есть заголовок и тело. В заголовке этого файла есть ссылки на номера строк в разделах тела. Например: SECTION_A 256 SECTION_B 344 SECTION_C 556 Это означает, что SECTION_A начинается в строке 256. Как лучше всего разобрать этот заголовок в...

0
голосов
1ответов
1023 просмотров

Как суммировать цифры текста в ячейке?

У меня есть таблица Excel Требуется просуммировать цифры в ячейках столбца «C» и поместить значение в соответствующую ячейку столбца «B» (в моем примере 0,25 + 1 + 0,25 + 1 = 2,5). Значения в столбце "C" могут измениться. Требуется обновить значение в «B», как только изменится ячейка в...

6
голосов
4ответов
13039 просмотров

Подход к извлечению текста PDF с использованием OCR

Пытался ли кто-нибудь извлечь текст из PDF с помощью библиотеки OCR и Java? Какую библиотеку вы считаете самой надежной для извлечения текста. Большинство подходов, которые я видел (tesseract, GOCR), представляют собой библиотеки C, для которых потребуется написать некоторый код JNI. Я знаком...

21
голосов
13ответов
27150 просмотров

Как мне определить, какой разделитель используется в текстовом файле?

Мне нужно уметь анализировать файлы CSV и TSV. Я не могу полагаться на то, что пользователи узнают разницу, поэтому я бы не хотел просить пользователя выбрать тип. Есть ли простой способ определить, какой разделитель используется? Один из способов - прочитать каждую строку, посчитать табуляци...

5
голосов
6ответов
9596 просмотров

Разбор строки, извлечение цифр и букв

Какой самый простой способ разобрать строку и извлечь число и букву? У меня есть строка, которая может быть в следующем формате (число | буква или буква | число), например «10A», «B5», «C10», «1G» и т. Д. Мне нужно извлечь 2 части, то есть «10A» -> «10» и «A». Обновление: спасибо всем...