BeautiflSoupというモジュールを使ってサイトからgoogle+のメンバーIDを抽出している。このモジュールはこういた処理をするときの定番みたいです。
_idという項目が、リレーショナル・データベースでいうところのプライマリーキーの役割をはたすもので、これは指定しないとMongoDBが自動的に採番する。リランしたときにデータが重複しないように、google+のIDを_idにセットするようにしている。
次は、このレコードを読み、google+のアクティビティを取得するプログラムを作る予定です。
#! c:/Python26/python.exe# coding: utf-8import pymongo #@UnresolvedImportfrom pymongo import Connection #@UnresolvedImportfrom BeautifulSoup import BeautifulSoup #@UnresolvedImportimport urllibdef ggtsidlist_make():soup = BeautifulSoup(urllib.urlopen("http://www.google.com/intl/ja/+/project48/").read())lisoup=[]ggtsidlist = []for lisoup in soup.findAll("li"):try:ggtsidlist.append(lisoup['data-gplusid'])except:continueggtsidlist.append('113474433041552257864') #やすすggtsidlist.append('108897254135232129896') #よすすggtsidlist.append('112435502021367429566') #しのぶggtsidlist.append('113091703821013997975') #木島ggtsidlist.append('103803814106571203433') #北川return ggtsidlistif __name__=='__main__':con = Connection()ggts = con[u'ggts']# con.ggts.ggtsid.remove()record = {}ggtsidlist = ggtsidlist_make()for ggtsid in ggtsidlist:record = {u'ggtsid':ggtsid,u'_id':ggtsid}print recordcon.ggts.ggtsid.insert(record)