Вывод ответа #1863942150

-

Ноу хау - от мастеров на заметку

Небольшие рецепты полезных решений

Zaterehniy


Репутация: 707
репутация: 707
| на сайте с 2006 года | последнее посещение: 03:52
сообщений: 2504

Пост № 1863942150

#простой Python-скрипт, который извлекает веб-страницу, парсит ее на наличие URL-ссылок и выводит на экран первые 10 из них.



import re

import urllib



regex = re.compile(r'href="([^"]+)"')



def matcher(url, max=10):

data = urllib.urlopen(url).read()

hits = regex.findall(data)

for hit in hits[:max]:

print urllib.basejoin(url, hit)



matcher("https://dimonvideo.ru")





Прикрепленный файл #1: 762_url_parser.zip | скачать с зеркала | (455 b)


ответ опубликован:
Рейтинг: 5
голосов: 2