
Zadanie napisania pierwszego „naszego” parsera padło na mnie. Nie będę ukrywał, że z początku uznałem to za pewne wyzwanie. Na szczęście dość szybko znalazłem to czego szukałem – czyli BeautifulSoup. Nazwa dość dziwna, ale o tym później. Wystarczyło kilka chwil (czytaj: wieczorów, gdy choć jeden domownik już śpi
), żeby przy jej użyciu, prosto i przyjemnie uzyskać to czego się chce. Nie będę tu pisał manual’a, ale pokusiłem się o prosty przykład. Załóżmy, że interesuje nas, kto komentował nasze wpisy ma blogu. Voilà:
#-*- coding: UTF-8 -*-
from BeautifulSoup import BeautifulSoup
import urllib
url = "http://blog.profitto.pl/2008/11/wybor-technologii"
soup = BeautifulSoup(urllib.urlopen(url).read())
authors = set() # unikalność
for comment in soup('div',{'class':'cmtinfo'}):
authors.add(comment.cite.string)
print ', '.join(authors)
Continue reading ‘Beautiful Soup – parser HTML’a na (jeden) wieczór’ »
