Copia de seguridad de bloglines

Si eres usuario de bloglines (lector de feeds online) probablemente guardes los posts que te parezcan interesantes utilizando la opción "keep new".

Después de usar este lector de feeds durante un tiempo, la cantidad de posts interesantes que he guardado así es importante. Estuve pensado que no me haría ninguna gracia perder estos datos, por eso he hecho un script que hace un backup de estos posts en un archivo xml.

Este script me ha servido para probar dos librerías muy útiles de Ruby: mechanize y hpricot. Mechanize permite navegar por web utilizando comandos muy simples como podrás ver en el script. Hpricot permite parsear documentos html y xml de manera muy fácil e intuitiva.

Para usar el script necesitas instalar las siguientes librerías:


gem install json
gem install activesupport
gem install hpricot
gem install mechanize

Y aquí dejo el script, creo que se entiende bastante bien lo que hace. Espero que os ayude bien a hacer un backup de vuestra cuenta de bloglines (recuerda cambiar los valores EMAIL y PASSWORD) o bien a aprender un poco como funcionan mechanize y hpricot.


require "rubygems"
require "hpricot"
require "json"
require "mechanize"
require "active_support"

# Reads a bloglines javascript tree structure that has all
# feeds data.
def read_tree( tree_base, label = "" )
 tree_base.each do |tree|
 if tree["kids"]
  read_tree tree["kids"], label + "/" + tree["n"]
  else
  @feeds << [tree["n"], label, tree["kn"], "http://www.bloglines.com/myblogs_display?sub=#{tree["id"]}&site=#{tree["sid"]}"]
 end
 end
end

# Add more memory to hpricot otherwise couldn't load some webs.
Hpricot.buffer_size = 262144

agent = WWW::Mechanize.new
page = agent.get 'http://www.bloglines.com/login'

form = page.forms[1]
form.email = 'EMAIL'
form.password = 'PASSWORD'

page = agent.submit form

# Get the bloglines sindicated feeds
menu_page = agent.get "http://www.bloglines.com/myblogs_subs"
start_text = "var initTreeData = "
end_text = "\n;\n"
js_feeds_tree_str = menu_page.content[menu_page.content.index(start_text)+start_text.size..menu_page.content.index(end_text)]
feeds_tree = JSON.parse js_feeds_tree_str.gsub("\\","")
@feeds = []
read_tree(feeds_tree["kids"])

puts "<bloglines_saves>"
@feeds.each do |feed|

 page = agent.get feed[3]
 doc= Hpricot(page.content)

 # get the content of all saved feed posts
 content = ((doc/"body")/"td.article")
 next if content.empty?
 puts "<feed name=\"#{feed[0].strip}\" folder=\"#{feed[1].strip}\">"
 
 # Iterate each saved feed post
 ((doc/"body")/"a.bl_itemtitle").each_with_index do |title, index|
  puts "<feed_save title=\"#{title.inner_html.strip}\" href=\"#{title.attributes["href"]}\">"
  puts content[index].inner_html.to_xs
  puts "</feed_save>"
 end
 puts "</feed>"

end
puts "</bloglines_saves>"