33
голосов
7ответов
14997 просмотров

Как я могу удалить все строки, которые не начинаются с определенных символов?

Мне нужно найти регулярное выражение для удаления всех строк, которые не начинаются с "+" или "-". Я хочу напечатать бумажную копию большого файла сравнения, но он показывает около 5 строк до и после фактического сравнения.

1
голосов
7ответов
1720 просмотров

Как прочитать в строке все символы из столбца A - B

возможно ли это в Python, учитывая файл с 10000 строками, где все они имеют такую структуру: 1, 2, xvfrt ert5a fsfs4 df f fdfd56, 234 или аналогичный, чтобы прочитать всю строку, а затем сохранить в другой строке все символы из столбца 7 до столбца 17, включая пробелы, чтобы новая строка б...

43
голосов
5ответов
31616 просмотров

Алгоритмы обнаружения фраз и ключевых слов из текста

У меня около 100 мегабайт текста без разметки, разделенных примерно на 10 000 записей. Я хотел бы автоматически создать список «тегов». Проблема в том, что есть группы слов (то есть словосочетания), которые имеют смысл только тогда, когда они сгруппированы вместе. Если я просто посчитаю слова...

82
голосов
10ответов
104516 просмотров

Удалить пустые строки в текстовом файле с помощью grep

FILE: hello world foo bar Как мне удалить все пустые новые строки в этом FILE? Вывод команды: FILE: hello world foo bar

1
голосов
5ответов
429 просмотров

how to get the similar texts from a lot of pages?

get the x most similar texts from a lot of texts to one text. maybe change the page to text is better. You should not compare the text to every text, because its too slow.

4
голосов
7ответов
385 просмотров

Put bar at the end of every line that includes foo

I have a list with a large number of lines, each taking the subject-verb-object form, eg: Jane likes Fred Chris dislikes Joe Nate knows Jill To plot a network graph that expresses the different relationships between the nodes in directed color-coded edges, I will need to replace the verb wit...

7
голосов
3ответов
3689 просмотров

Classifying Text Based on Groups of Keywords?

I have a list of requirements for a software project, assembled from the remains of its predecessor. Each requirement should map to one or more categories. Each of the categories consists of a group of keywords. What I'm trying to do is find an algorithm that would give me a score ranking which o...

1
голосов
2ответов
136 просмотров

Text Processing with Program Instead of Perl

I have a .plist file that looks like this: <plist version="1.0"> <array> <dict> <key>name</key> <string>Alabama</string> <key>abreviation</key> <string>AL</string> <key>date</key> <string>...

-1
голосов
5ответов
5226 просмотров

How can I remove all non-word characters except the newline?

I have a file like this: my line - some words & text oh lóok i've got some characters I want to 'normalize' it and remove all the non-word characters. I want to end up with something like this: mylinesomewordstext ohlóokivegotsomecharacters I'm using Linux on the command line at the mom...

15
голосов
2ответов
14801 просмотров

How to compute the number of times word appeared in a file or in some range

Sometimes I want to see how many times a certain function is called in a file or a code block. How do you do that? I am using Vim 7.2. I presume you have to use !wc or some such.

3
голосов
6ответов
3487 просмотров

Using Awk to process a file where each record has different fixed-width fields

I have some data files from a legacy system that I would like to process using Awk. Each file consists of a list of records. There are several different record types and each record type has a different set of fixed-width fields (there is no field separator character). The first two characters...

1
голосов
2ответов
1036 просмотров

Natural language processing / text structure analysis starting point

I need to parse & process a big set of semi-structured text (basically, legal documents - law texts, addendums to them, treaties, judge's decisions, ...). The most fundamental thing I'm trying to do is extract information on how subparts are structured - chapters, articles, subheadings, ... p...

10
голосов
10ответов
3038 просмотров

Finding dictionary words

I have a lot of compound strings that are a combination of two or three English words. e.g. "Spicejet" is a combination of the words "spice" and "jet" I need to separate these individual English words from such compound strings. My dictionary is going to consist of around 100000 words. W...

2
голосов
2ответов
1438 просмотров

How to move part of file to its end

rpm automatically place a new installed kernel as the first option. However, I want to move it as the last one - to end of the file. Grub configuration file looks like this: default=0 timeout=5 splashimage=(hd0,0)/grub/splash.xpm.gz hiddenmenu title Fedora (2.6.29.6-217.2.7.fc11.x86_64) roo...

20
голосов
3ответов
2880 просмотров

How to strip headers/footers from Project Gutenberg texts?

I've tried various methods to strip the license from Project Gutenberg texts, for use as a corpus for a language learning project, but I can't seem to come up with an unsupervised, reliable approach. The best heuristic I've come up with so far is stripping the first twenty eight lines and the la...

4
голосов
6ответов
3151 просмотров

Algorithm for generating a 'top list' using word frequency

I have a big collection of human generated content. I want to find the words or phrases that occur most often. What is an efficient way to do this?

1
голосов
3ответов
468 просмотров

How was the Google Books' Popular passages feature developed?

I'm curious if anyone understands, knows or can point me to comprehensive literature or source code on how Google created their popular passage blocks feature. However, if you know of any other application that can do the same please post your answer too. If you do not know what I am writing abo...

4
голосов
3ответов
3366 просмотров

How to extract a single function from a source file

I'm working on a small academic research about extremely long and complicated functions in the Linux kernel. I'm trying to figure out if there is a good reason to write 600 or 800 lines-long functions. For that purpose, I would like to find a tool that can extract a function from a .c file, so I...

215
голосов
10ответов
132607 просмотров

Как преобразовать весь текст в нижний регистр в Vim

Как преобразовать весь текст в Vim в нижний регистр? Возможно ли такое?

4
голосов
3ответов
225 просмотров

Манипуляции с текстом с сохранением смещения исходной позиции

Мне нужно манипулировать большими строками в Java (удаление и добавление удаленных символы снова, перемещая символы), но все же хотите запомнить смещения исходной позиции. Например. слово "компьютер" начинается со смещения 133 в исходном тексте, а затем перемещается на позицию 244, я все еще нуж...

0
голосов
1ответов
213 просмотров

Алгоритм поиска папки

Не уверен, что это обычный вопрос, который задают здесь, или я получу какие-либо ответы на этот, но я ищу подход псевдокода для создания записей связывания БД из папки структура, содержащая файлы изображений. У меня есть набор папок со следующей структурой: +-make_1/ | +--model_1/ | ...

0
голосов
5ответов
4718 просмотров

AWK / и т. Д .: извлечение совпадений из файла

У меня есть файл HTML, и я хочу извлечь текст между тегами <li> и </li>. Конечно, есть миллион способов сделать это, но я подумал, что было бы полезно выработать привычку делать это с помощью простых команд оболочки: awk '/<li[^>]+><a[^>]+>([^>]+)<\/a>/m...

0
голосов
3ответов
461 просмотров

Замена повторяющихся слов в строке целыми числами

У меня проблема с манипуляциями со строками в C ++. Правило: если одно и то же «слово» повторяется в предложениях или абзаце, я хочу, чтобы оно стало целым числом. Пример: ввод: we prefer questions that can be answered, not just we discussed that. вывод: 1 prefer questions 2 can be a...

1
голосов
2ответов
137 просмотров

Есть ли инструмент для очистки вывода инструмента script (1)?

script(1) - это инструмент для записи интерактивного сеанса терминала; по умолчанию он записывает в файл transcript. Моя проблема в том, что я использую ksh93, который имеет функции readline, и поэтому транскрипт переполнен всевозможными escape-последовательностями терминала, и может быть очень ...

3
голосов
3ответов
1012 просмотров

Perl: цикл по входным строкам с помощью индексного подхода

Это вопрос для начинающих по Perl. Я новичок в этом языке. Вопрос такой: Если я хочу обработать выходные строки из программы, как я могу отформатировать ПЕРВУЮ СТРОКУ особым образом? Я думаю о двух возможностях: 1) Флаговая переменная устанавливается после первого выполнения цикла. Но о...

3
голосов
9ответов
784 просмотров

Удалить строки из файла

Я занимаюсь обработкой текста в системе unix. У меня есть доступ к командной строке на этом компьютере, и на нем установлены Python, Perl и программы обработки текста по умолчанию, awk и т. Д. У меня есть текстовый файл, который выглядит следующим образом: 2029754527851451717 202975452785...

21
голосов
3ответов
22321 просмотров

Использование SQL для определения статистики количества слов в текстовом поле

Недавно я работал над некоторыми функциями поиска в базе данных и хотел получить некоторую информацию, например, среднее количество слов в документе (например, текстовое поле в базе данных). Единственное, что я нашел до сих пор (без обработки на выбранном языке вне БД): SELECT AVG(LENGTH(cont...

1
голосов
6ответов
1938 просмотров

Поменять местами ключ и пару значений массива

У меня есть текстовый файл с такой компоновкой: 1 a, b, c 2 c, b, c 2.5 a, c Я хотел бы поменять местами ключи (число) и значения (CSV) (они разделены символом табуляции), чтобы получить следующее: a 1, 2.5 b 1, 2 c 1, 2, 2.5 (Обратите внимание, что 2 не дублируется для c...

2
голосов
4ответов
795 просмотров

Удалить символы в Python

кто-нибудь знает, как удалить все символы после определенного символа ?? вот так: http://google.com/translate_t в http://google.com

5
голосов
8ответов
1352 просмотров

«Абсолютная» строковая метрика

У меня огромный (но конечный) набор строк на естественном языке. Мне нужен способ преобразовать каждую строку в числовое значение. Для любой данной строки значение должно каждый раз быть одинаковым. Чем более "разные" две данные строки, тем больше должно быть разных двух соответствующих зн...