Все вопросы: [nlp]

176 вопросов

похожие теги: stanford-nlp
5
голосов
7ответов
1341 просмотров

найти несколько предложений

Я бы хотел найти хороший способ найти несколько (пусть будет два) предложения в каком-то тексте. Что будет лучше - регулярное выражение или сплит-метод? Ваши идеи? По просьбе Джереми Стейна - есть несколько примеров Первое, что нужно сделать, это создать модель комментариев. Мы созд...

4
голосов
3ответов
1858 просмотров

Извлечение чистого содержимого / текста из HTML-страниц за счет исключения навигации и содержимого Chrome

Я просматриваю новостные веб-сайты и хочу извлечь заголовок новости, аннотацию новости (первый абзац) и т. д. Я подключился к коду парсера webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой контент, не связанный с новостями, я беру текстовую вер...

4
голосов
1ответов
696 просмотров

Работа с целочисленными функциями для CRF в молотке

Я только начинаю использовать класс SimpleTagger в молотке.У меня сложилось впечатление, что он ожидает двоичных функций.Модель, которую я хочу реализовать, имеет положительные целочисленные функции, и мне интересно, как реализовать это в молотке.Кроме того, я слышал, что небинарные функции необ...

6
голосов
5ответов
2333 просмотров

Есть ли в WordNet «уровни»?(НЛП)

Например ... Курица - это животное . Буррито - это еда . WordNet позволяет вам использовать функцию Hiearchy. Однако как мне узнать, когда лучше перестать подниматься на дерево?Я хочу УРОВЕНЬ. Это соответствует. Например, если представить несколько слов, я хочу, чтобы wordNet кла...

3
голосов
5ответов
2556 просмотров

Как разделить слова на категории.(НЛП)

I love to eat chicken. Today I went running, swimming and played basketball. Моя цель - вернуть ЕДА и СПОРТ , просто проанализировав эти два предложения.Как это сделать? Я знаком с НЛП и Wordnet.Но есть ли что-то более высокоуровневое / практичное / современное ?? Есть ли что-нибудь...

0
голосов
1ответов
1821 просмотров

фрагменты / парсинг текста с использованием NLTK

Я пытаюсь разобрать текст и построить его схему, как предложение.Я новичок в NLTK и пытаюсь найти что-то в NLTK, что поможет мне в этом.Пока я видел nltk.ne_chunk и nltk.pos_tag. Я считаю, что они не очень полезны, и я не могу найти никакой хорошей онлайн-документации. Я также пробовал исполь...

8
голосов
9ответов
936 просмотров

Есть ли достаточно простой способ для сценария определить (из контекста), является ли «her» притяжательным местоимением?

Я пишу сценарий, чтобы поменять местами все гендерные аспекты в фрагменте текста, поэтому все гендерные слова меняются местами: «мужчина» заменяется на «женщина», «она» - на «он» и т. д. Но естьдвусмысленность относительно того, следует ли заменить «ее» на «он» или «его».

9
голосов
2ответов
4377 просмотров

Какой блок по умолчанию для набора инструментов NLTK в Python?

Я использую их теги POS по умолчанию и токенизацию по умолчанию ... и этого достаточно.Мне тоже нужен чанкер по умолчанию. Я читаю книгу о наборе инструментов NLTK, но не похоже, что у них есть чанкер по умолчанию?

6
голосов
1ответов
3930 просмотров

Что мне следует использовать для извлечения имен и мест - LingPipe или NLTK?

Я хочу извлечь имена и места из очень коротких фрагментов текста "Кардиналы против сойки в Торонто" «Даниэль Нестор и Ненад Зимоньич сыграют Йонаса Бьоркмана с Кевином Уллиттом, время в Париже будет объявлено дополнительно» «Дженсон Баттон - поул-позиция, Браун-Мерседес - Монако». Эти да...

43
голосов
5ответов
31616 просмотров

Алгоритмы обнаружения фраз и ключевых слов из текста

У меня около 100 мегабайт текста без разметки, разделенных примерно на 10 000 записей. Я хотел бы автоматически создать список «тегов». Проблема в том, что есть группы слов (то есть словосочетания), которые имеют смысл только тогда, когда они сгруппированы вместе. Если я просто посчитаю слова...

0
голосов
2ответов
459 просмотров

извлекать грамматические особенности из предложения в Google App Engine

Для моего приложения GAE мне нужно выполнить некоторую обработку естественного языка, чтобы извлечь субъект и объект из входного предложения. Очевидно, NLTK не может быть установлен (легко) в GAE, поэтому я ищу другое решение. Я заметил, что GAE поставляется с Antlr3 , но из просмотра их ...

25
голосов
5ответов
16747 просмотров

POS-теги на немецком языке

Я использую NLTK для извлечения существительных из текстовой строки, начиная со следующей команды: tagged_text = nltk.pos_tag(nltk.Text(nltk.word_tokenize(some_string))) Он отлично работает на английском языке. Есть ли простой способ заставить его работать и для немецкого языка? (У м...

6
голосов
3ответов
1405 просмотров

Командный язык на естественном языке

Меня интересует разработка командного языка на естественном языке для домена с существующими правилами. Я был очень впечатлен, когда SHRDLU Терри Винограда показал путь (беседе ниже 40 лет! ). Можем ли мы сделать лучше сейчас, и если да, то где мне взять примеры? Человек: возьмите большо...

2
голосов
3ответов
6898 просмотров

Natural Language Processing in C++

I'm working on a project that already has a C++ base. I would like to have a plug-in for some natural language processing. I really like GATE but I'm not sure if it's worth launching the JVM and splitting the project into C++ and Java portions. I noticed UIMA has a C++ framework, but have not ...

19
голосов
3ответов
17471 просмотров

In Natural language processing, what is the purpose of chunking?

In Natural language processing, what is the purpose of chunking?

0
голосов
1ответов
125 просмотров

Integrating my program with a web2.0 website

I'm creating an ELIZA-like chatterbot, and I'd like to calibrate it with Omegle, using what the other person type as the input. If it was a regular HTML page, I could parse it and send back the response to some script, but checking the source code, I've noticed that the entire page is created u...

24
голосов
5ответов
36176 просмотров

Lemmatization java

I am looking for a lemmatisation implementation for English in Java. I found a few already, but I need something that does not need to much memory to run (1 GB top). Thanks. I do not need a stemmer.

0
голосов
2ответов
846 просмотров

How does AraMorph 1.2.1 work?

I have downloaded AraMorph 1.2.1 Perl version from SourceForge, but I do not know how to use it. Could someone explain to me how can I get it to work?

0
голосов
1ответов
831 просмотров

Package to compare LSA, TFIDF, Cosine metrics and Language Models

I'm looking for a package (any language, really) that I can use on a corpus of 50 documents to perform interdocument similarity testing in various metrics, like tfidf, okapi, language models, lsa, etc. I want as a result a document similarity matrix, i.e. doc1 is x% similar to doc2, etc... This...

7
голосов
3ответов
3689 просмотров

Classifying Text Based on Groups of Keywords?

I have a list of requirements for a software project, assembled from the remains of its predecessor. Each requirement should map to one or more categories. Each of the categories consists of a group of keywords. What I'm trying to do is find an algorithm that would give me a score ranking which o...

1
голосов
1ответов
865 просмотров

Finding type of break in icu::BreakIterator

I'm trying to understang how to use icu::BreakIterator to find specific words. For example I have following sentence: To be or not to be? That is the question... Word instance of break iterator would put breaks there: |To| |be| |or| |not| |to| |be|?| |That| |is| |the| |question|.|.|.| ...

9
голосов
4ответов
10717 просмотров

Correlation clustering in R

I'd like to use correlation clustering and I figure R is a good place to start. I can present the data to R as a set of large, sparse vectors or as a table with a pre-computed dissimilarity matrix. My questions are: are there existing R functions to turn this into a hierarchical cluster with ...

4
голосов
10ответов
478 просмотров

How to automatically excerpt user generated content?

I run a website that allows users to write blog-post, I would really like to summarize the written content and use it to fill the <meta name="description".../>-tag for example. What methods can I employ to automatically summarize/describe the contents of user generated content? Are there a...

4
голосов
3ответов
257 просмотров

What is a fast and unsupervised way of checking quality of pdf-extracted text?

I am working on a somewhat large corpus with articles numbering the tens of thousands. I am currently using PDFBox to extract with various success, and I am looking for a way to programatically check each file to see if the extraction was moderately successful or not. I'm currently thinking of ru...

1
голосов
1ответов
679 просмотров

Natural Language CFG builder Algorithm

I am working in a natural language processing project. It aims to build libraries for Arabic language. We working on a POS tagger and now I am thinking in grammar phase. Since Arabic language and many others have complicated grammar, so it is very hard to build their context free grammar (CFG). F...

15
голосов
8ответов
8284 просмотров

Natural Language date and time parser for java

I am working on a Natural Language parser which examines a sentence in english and extracts some information like name, date etc. for example: "Lets meet next tuesday at 5 PM at the beach." So the output will be something like : "Lets meet 15/09/2009 at 1700 hr at the beach" So basically, what...

0
голосов
1ответов
612 просмотров

Google Wave Context-Aware Spell Checker

Is it possible to use the Google Wave Context-Aware Spell Checker via web services? If yes, can anyone please be kind enough to post a simple example?

22
голосов
11ответов
6762 просмотров

How to determine the (natural) language of a document?

I have a set of documents in two languages: English and German. There is no usable meta information about these documents, a program can look at the content only. Based on that, the program has to decide which of the two languages the document is written in. Is there any "standard" algorithm for...

5
голосов
6ответов
4168 просмотров

Can you programmatically detect pluralizations of English words, and derive the singular form?

Given some (English) word that we shall assume is a plural, is it possible to derive the singular form? I'd like to avoid lookup/dictionary tables if possible. Some examples: Examples -> Example a simple 's' suffix Glitch -> Glitches 'es' suffix, as opposed to above Countries -&...

6
голосов
3ответов
3998 просмотров

which is better... GATE or RapidMiner

I've started to write a simple sentiment analysis tool. Currently I am looking at GATE and RapidMiner but being a beginner not able to concentrate on both. Could someone please tell me which one will be better in terms of usage, learning curve, licensing etc?