Все вопросы: [text-processing]
43 вопросов
Как я могу удалить все строки, которые не начинаются с определенных символов?
Мне нужно найти регулярное выражение для удаления всех строк, которые не начинаются с "+" или "-". Я хочу напечатать бумажную копию большого файла сравнения, но он показывает около 5 строк до и после фактического сравнения.
Как прочитать в строке все символы из столбца A - B
возможно ли это в Python, учитывая файл с 10000 строками, где все они имеют такую структуру: 1, 2, xvfrt ert5a fsfs4 df f fdfd56, 234 или аналогичный, чтобы прочитать всю строку, а затем сохранить в другой строке все символы из столбца 7 до столбца 17, включая пробелы, чтобы новая строка б...
Алгоритмы обнаружения фраз и ключевых слов из текста
У меня около 100 мегабайт текста без разметки, разделенных примерно на 10 000 записей. Я хотел бы автоматически создать список «тегов». Проблема в том, что есть группы слов (то есть словосочетания), которые имеют смысл только тогда, когда они сгруппированы вместе. Если я просто посчитаю слова...
Удалить пустые строки в текстовом файле с помощью grep
FILE: hello world foo bar Как мне удалить все пустые новые строки в этом FILE? Вывод команды: FILE: hello world foo bar
how to get the similar texts from a lot of pages?
get the x most similar texts from a lot of texts to one text. maybe change the page to text is better. You should not compare the text to every text, because its too slow.
Put bar at the end of every line that includes foo
I have a list with a large number of lines, each taking the subject-verb-object form, eg: Jane likes Fred Chris dislikes Joe Nate knows Jill To plot a network graph that expresses the different relationships between the nodes in directed color-coded edges, I will need to replace the verb wit...
Classifying Text Based on Groups of Keywords?
I have a list of requirements for a software project, assembled from the remains of its predecessor. Each requirement should map to one or more categories. Each of the categories consists of a group of keywords. What I'm trying to do is find an algorithm that would give me a score ranking which o...
Text Processing with Program Instead of Perl
I have a .plist file that looks like this: <plist version="1.0"> <array> <dict> <key>name</key> <string>Alabama</string> <key>abreviation</key> <string>AL</string> <key>date</key> <string>...
How can I remove all non-word characters except the newline?
I have a file like this: my line - some words & text oh lóok i've got some characters I want to 'normalize' it and remove all the non-word characters. I want to end up with something like this: mylinesomewordstext ohlóokivegotsomecharacters I'm using Linux on the command line at the mom...
How to compute the number of times word appeared in a file or in some range
Sometimes I want to see how many times a certain function is called in a file or a code block. How do you do that? I am using Vim 7.2. I presume you have to use !wc or some such.
Using Awk to process a file where each record has different fixed-width fields
I have some data files from a legacy system that I would like to process using Awk. Each file consists of a list of records. There are several different record types and each record type has a different set of fixed-width fields (there is no field separator character). The first two characters...
Natural language processing / text structure analysis starting point
I need to parse & process a big set of semi-structured text (basically, legal documents - law texts, addendums to them, treaties, judge's decisions, ...). The most fundamental thing I'm trying to do is extract information on how subparts are structured - chapters, articles, subheadings, ... p...
Finding dictionary words
I have a lot of compound strings that are a combination of two or three English words. e.g. "Spicejet" is a combination of the words "spice" and "jet" I need to separate these individual English words from such compound strings. My dictionary is going to consist of around 100000 words. W...
How to move part of file to its end
rpm automatically place a new installed kernel as the first option. However, I want to move it as the last one - to end of the file. Grub configuration file looks like this: default=0 timeout=5 splashimage=(hd0,0)/grub/splash.xpm.gz hiddenmenu title Fedora (2.6.29.6-217.2.7.fc11.x86_64) roo...
How to strip headers/footers from Project Gutenberg texts?
I've tried various methods to strip the license from Project Gutenberg texts, for use as a corpus for a language learning project, but I can't seem to come up with an unsupervised, reliable approach. The best heuristic I've come up with so far is stripping the first twenty eight lines and the la...
Algorithm for generating a 'top list' using word frequency
I have a big collection of human generated content. I want to find the words or phrases that occur most often. What is an efficient way to do this?
How was the Google Books' Popular passages feature developed?
I'm curious if anyone understands, knows or can point me to comprehensive literature or source code on how Google created their popular passage blocks feature. However, if you know of any other application that can do the same please post your answer too. If you do not know what I am writing abo...
How to extract a single function from a source file
I'm working on a small academic research about extremely long and complicated functions in the Linux kernel. I'm trying to figure out if there is a good reason to write 600 or 800 lines-long functions. For that purpose, I would like to find a tool that can extract a function from a .c file, so I...
Как преобразовать весь текст в нижний регистр в Vim
Как преобразовать весь текст в Vim в нижний регистр? Возможно ли такое?
Манипуляции с текстом с сохранением смещения исходной позиции
Мне нужно манипулировать большими строками в Java (удаление и добавление удаленных символы снова, перемещая символы), но все же хотите запомнить смещения исходной позиции. Например. слово "компьютер" начинается со смещения 133 в исходном тексте, а затем перемещается на позицию 244, я все еще нуж...
Алгоритм поиска папки
Не уверен, что это обычный вопрос, который задают здесь, или я получу какие-либо ответы на этот, но я ищу подход псевдокода для создания записей связывания БД из папки структура, содержащая файлы изображений. У меня есть набор папок со следующей структурой: +-make_1/ | +--model_1/ | ...
AWK / и т. Д .: извлечение совпадений из файла
У меня есть файл HTML, и я хочу извлечь текст между тегами <li> и </li>. Конечно, есть миллион способов сделать это, но я подумал, что было бы полезно выработать привычку делать это с помощью простых команд оболочки: awk '/<li[^>]+><a[^>]+>([^>]+)<\/a>/m...
Замена повторяющихся слов в строке целыми числами
У меня проблема с манипуляциями со строками в C ++. Правило: если одно и то же «слово» повторяется в предложениях или абзаце, я хочу, чтобы оно стало целым числом. Пример: ввод: we prefer questions that can be answered, not just we discussed that. вывод: 1 prefer questions 2 can be a...
Есть ли инструмент для очистки вывода инструмента script (1)?
script(1) - это инструмент для записи интерактивного сеанса терминала; по умолчанию он записывает в файл transcript. Моя проблема в том, что я использую ksh93, который имеет функции readline, и поэтому транскрипт переполнен всевозможными escape-последовательностями терминала, и может быть очень ...
Perl: цикл по входным строкам с помощью индексного подхода
Это вопрос для начинающих по Perl. Я новичок в этом языке. Вопрос такой: Если я хочу обработать выходные строки из программы, как я могу отформатировать ПЕРВУЮ СТРОКУ особым образом? Я думаю о двух возможностях: 1) Флаговая переменная устанавливается после первого выполнения цикла. Но о...
Удалить строки из файла
Я занимаюсь обработкой текста в системе unix. У меня есть доступ к командной строке на этом компьютере, и на нем установлены Python, Perl и программы обработки текста по умолчанию, awk и т. Д. У меня есть текстовый файл, который выглядит следующим образом: 2029754527851451717 202975452785...
Использование SQL для определения статистики количества слов в текстовом поле
Недавно я работал над некоторыми функциями поиска в базе данных и хотел получить некоторую информацию, например, среднее количество слов в документе (например, текстовое поле в базе данных). Единственное, что я нашел до сих пор (без обработки на выбранном языке вне БД): SELECT AVG(LENGTH(cont...
Поменять местами ключ и пару значений массива
У меня есть текстовый файл с такой компоновкой: 1 a, b, c 2 c, b, c 2.5 a, c Я хотел бы поменять местами ключи (число) и значения (CSV) (они разделены символом табуляции), чтобы получить следующее: a 1, 2.5 b 1, 2 c 1, 2, 2.5 (Обратите внимание, что 2 не дублируется для c...
Удалить символы в Python
кто-нибудь знает, как удалить все символы после определенного символа ?? вот так: http://google.com/translate_t в http://google.com
«Абсолютная» строковая метрика
У меня огромный (но конечный) набор строк на естественном языке. Мне нужен способ преобразовать каждую строку в числовое значение. Для любой данной строки значение должно каждый раз быть одинаковым. Чем более "разные" две данные строки, тем больше должно быть разных двух соответствующих зн...