; Vince y el mundo del software: Descargar el padrón electoral y ponerle los nombres a los pdf

martes, 28 de enero de 2014

Descargar el padrón electoral y ponerle los nombres a los pdf

Nota: Cambiaron la página del padron electoral, ahora está en: http://presidenciales.servel.cl/Padron/padronDefinitivo.html sin embargo no es tan fácil descargarlo (con wget no funcionaría), ya que los links ya no están en duro, sino con javascript, lo que hace que se necesite un script para rescatar los archivos. Yo personalmente NO lo haré, pero si alguien se anima a hacer las expresiones regulares o con algúna forma rescata los archivos *facilmente* (es decir sin descargar uno por uno), que lo comparta y me avise, sería muy bueno.


Hola! En este nuevo artículo vengo recargado de más scripts y tutoriales.
Resulta que en Chile, el Servicio Electoral tiene a disposición pública el padrón electoral. Sin embargo descargarlos de a uno e irle poniendo los nombres es toda una odisea, que tardaría varias horas de aburrimiento. Para evitar eso, me puse a hacer un script que lo haga automático.

La primera parte consiste en descargar los pdf, para esto no se necesita mucho script, simplemente basta con una instrucción en la consola para los que tenemos Linux. La instrucción es:
wget -r -l1 http://oficial.servel.cl/PadronComunal/Arica/alfabetico_comunal.html

Desglosándola, vemos lo siguiente:
wget: El comando para descargala
-r: Para descargar todos los links dentro de la página
l1: pero sólo los links de esta página, en caso de haber páginas que contengan más links, éstos últimos no serán descargados, dado que el nivel de recursión es 1. En este caso particular pareciera no servir, pero siempre hay que ser precavido.

Luego de descargar los pdf, tenemos que acceder a ellos. Par ello primero vamos a la siguiente dirección:
~/servel/oficial.servel.cl/PadronComunal/Arica
Ahí está un archivo html y una carpeta con los pdf. Como vemos, los pdf tienen nombres crípticos, que no nos sirven. Para no darme la lata de estar cambiándole los nombres uno por uno, creé un mix de script en bash y python para realizarlo, que dejo en este link (Pueden hacerle copia de respaldo).

Para ejecutar bien el script, tienen que dejar los dos archivos dentro de la carpeta anteriormente mencionada, junto al archivo html.
Ejecutan el script.sh en una terminal. Luego les pedirá la carpeta de los pdf, para ello simplemente arrastra la carpeta que contiene los pdf a la terminal, la cual debiera ser:
~/servel/oficial.servel.cl/PadronComunal/Arica/archivos comuna auditado

¡Y listo! Ya tienen el padrón electoral chileno con nombres claros en los pdf.

2 comentarios:

  1. Este comentario ha sido eliminado por el autor.

    ResponderEliminar
  2. Pudiste hacerlo con mas regiones? te agradecería si pudieras pasarme los de la región de coquimbo, los necesito para hacer gráficas.

    ResponderEliminar