2
голосов
7ответов
3645 просмотров

найти название компании по URL

с учетом URL-адреса хорошо известной компании (например, http://mcdonalds.com/ ), как бывы автоматически и надежно найдете название компании (в данном случае "Mc Donalds")? Спасибо Изменить: кто-то проголосовал за закрытие этого вопроса, поэтому, возможно, мне нужно объяснить мотивацию.У ...

3
голосов
2ответов
1212 просмотров

Бесплатный источник данных желтых страниц?

Есть ли бесплатный источник основных данных желтых страниц (имя, адрес, номер телефона)? Я не против, если он устарел. Я ничего не нашел в гугле. Чтобы уточнить, я ищу дамп данных, я знаю, что могу просто зайти на yellow pages.com или что-то еще для обычных запросов. В крайнем случае, я, наверно...

3
голосов
4ответов
2488 просмотров

Retrieve partial web page

Is there any way of limiting the amount of data CURL will fetch? I'm screen scraping data off a page that is 50kb, however the data I require is in the top 1/4 of the page so I really only need to retrieve the first 10kb of the page. I'm asking because there is a lot of data I need to monitor...

2
голосов
1ответов
268 просмотров

Reading Website pages

Assume there is a website called http://example.com/a the website is being developed using PHP, Perl, Ruby and other languages. I want to be able from my website to read this website pages, execute the code and then analyze the HTML result page tags and getting the content using PHP. it's like...

1
голосов
4ответов
12938 просмотров

How can I get HTML content from a specific URL on server side by using Java?

I am designing an application that needs to load HTML content from a specific URL on server side by using Java. How can I solve it? Regards,

153
голосов
4ответов
114876 просмотров

Scraping html tables into R data frames using the XML package

How do I scrape html tables using the XML package? Take, for example, this wikipedia page on the Brazilian soccer team. I would like to read it in R and get the "list of all matches Brazil have played against FIFA recognised teams" table as a data.frame. How can I do this?

2
голосов
4ответов
2158 просмотров

How to retrieve HTML page in proper encoding using Java?

How can I read HTTP stream with HTML page in page's encoding? Here is a code fragment I use to get the HTTP stream. InputStreamReader has the encoding optional argument, but I have no ideas about the way to obtain it. URLConnection conn = url.openConnection(); InputStream is = conn.getInputStre...

-2
голосов
3ответов
1313 просмотров

python script for downloading all Ctrl+Alt+Del webcomics?

Does anyone have one? Ive tried Comicdownloader but that only lets me download the newest comic and I dont understand Python well enough to figure out how to change it to download all the comics

2
голосов
2ответов
4925 просмотров

How best to search a website and retrieve data in PHP?

Trying to learning some more PHP. Here is what I'm after. Essentially, I would like to search a website and return data to my own website. Add a few keywords to a form. Use those keywords to query a website such as monster.com for results that match the keywords entered. Grab that data and re...

-1
голосов
1ответов
791 просмотров

How do I data mine various news sources?

I'm working on a free web application that will analyze top news stories throughout the day and provide stats. Most news websites offer RSS feeds, which works fine for knowing which stories to retrieve. However, the problems arise when attempting to get the full news story from the news website i...

1
голосов
3ответов
1846 просмотров

Автоматизировать навигацию в браузере и извлечение данных

Я пытаюсь автоматизировать извлечение данных с веб-сайта и действительно не знаю, с чего начать. Один из наших поставщиков предоставляет нам доступ к некоторым данным журналов оборудования через онлайн-приложение « Business Objects 11 ». Если вы не знакомы с этим онлайн-приложением, подумайте о ...

143
голосов
16ответов
228401 просмотров

получать ссылки с веб-страницы с помощью python и BeautifulSoup

Как я могу получить ссылки веб-страницы и скопировать URL-адрес ссылок с помощью Python?

22
голосов
5ответов
40622 просмотров

Как программно войти на веб-сайт для просмотра экрана?

Мне нужна информация с чужого веб-сайта. Чтобы получить эту информацию, мне нужно войти на веб-сайт для сбора информации, это происходит через HTML-форму. Как я могу выполнить это аутентифицированное экранирование экрана на C #? Дополнительная информация: Аутентификация на основе файлов c...

2
голосов
4ответов
26595 просмотров

curl не работает для получения содержимого веб-страницы, почему?

Я использую сценарий curl, чтобы перейти по ссылке и получить ее содержимое для дальнейших манипуляций. Ниже приведен скрипт ссылки и завивки: <?php $url = 'http://criminaljustice.state.ny.us/cgi/internet/nsor/fortecgi?serviceName=WebNSOR&templateName=detail.htm&requesting...

1
голосов
2ответов
1139 просмотров

Python выбирает значение в поле со списком и HTTP POST

В Python я пытаюсь прочитать значения на http://utahcritseries.com/RawResults.aspx . Как я могу прочитать годы, кроме 2002 года по умолчанию? До сих пор, используя Mechanize, я мог ссылаться на SELECT и перечислять все его доступные параметры / значения, но не уверен, как изменить его значен...

12
голосов
13ответов
15161 просмотров

Какой лучший язык для очистки экрана?

Привет, я хочу создать настольное приложение (проблема с #), которое очищает или манипулирует формой на сторонней веб-странице. В основном я ввожу свои данные в форму в настольном приложении, они уходят на сторонний веб-сайт и, используя скрипт или что-то еще в фоновом режиме, вводят туда мои да...

16
голосов
4ответов
65208 просмотров

Очистить содержимое веб-страницы

Я разрабатываю проект, для которого я хочу очистить содержимое веб-сайта в фоновом режиме и получить ограниченный контент с этого очищенного веб-сайта. Например, на моей странице есть поля «ИД пользователя» и «Пароль», с их помощью я буду получать доступ к своей почте, очищать содержимое почтово...

54
голосов
10ответов
64219 просмотров

Как вы очищаете страницы AJAX?

Посоветуйте, пожалуйста, как очищать страницы AJAX.

52
голосов
11ответов
108732 просмотров

Анализ Java HTML

Я работаю над приложением, которое собирает данные с веб-сайта, и мне было интересно, как мне получить эти данные. В частности, мне нужны данные, содержащиеся в нескольких тегах div, которые используют определенный класс CSS. В настоящее время (в целях тестирования) я просто проверяю div clas...

20
голосов
9ответов
21942 просмотров

Как работают скребки экрана?

Я постоянно слышу, как люди пишут эти программы, и я знаю, что они делают, но как они это делают на самом деле? Я ищу общие концепции.

407
голосов
40ответов
180051 просмотров

Варианты парсинга HTML?

Я подумываю попробовать Beautiful Soup , пакет Python для парсинга HTML. Есть ли другие пакеты для очистки HTML, на которые мне следует обратить внимание? Python не является обязательным требованием, мне интересно услышать и о других языках. История на данный момент: Python Красивый суп...