Posts tagged ‘HTML’

Zadanie napisania pierwszego „naszego” parsera padło na mnie. Nie będę ukrywał, że z początku uznałem to za pewne wyzwanie. Na szczęście dość szybko znalazłem to czego szukałem – czyli BeautifulSoup. Nazwa dość dziwna, ale o tym później. Wystarczyło kilka chwil (czytaj: wieczorów, gdy choć jeden domownik już śpi :) ), żeby przy jej użyciu, prosto i przyjemnie uzyskać to czego się chce. Nie będę tu pisał manual’a, ale pokusiłem się o prosty przykład. Załóżmy, że interesuje nas, kto komentował nasze wpisy ma blogu. Voilà:


#-*- coding: UTF-8 -*-

from BeautifulSoup import BeautifulSoup
import urllib

url = "http://blog.profitto.pl/2008/11/wybor-technologii"
soup = BeautifulSoup(urllib.urlopen(url).read())

authors = set() # unikalność
for comment in soup('div',{'class':'cmtinfo'}):
    authors.add(comment.cite.string)

print ', '.join(authors)

Continue reading ‘Beautiful Soup – parser HTML’a na (jeden) wieczór’ »