sugeriría que lo que se suba mirror se indique de dónde salió, de cómo llegar ahí aparte de una url directa de referencia
ok, supongo que sería bueno hacer una página del wiki explicando cómo navegar los sitios de aresep y esos otros
Bryan
Qué están haciendo con datos?
Mi sugerencia es que debemos pasar todo de xlxs a un formato mas amigable tipo json yaml CSV o a una db relacional
Limpiando datos relacionados con transporte
mi sugerencia es que nos enfoquemos en el código. No se en qué irá a parar el proyecto de abriendo datos, pero de fijo nos va a servir a nosotros como ejercicio para jaquear los datos.
hacer una funcion para descargar el xls, otra para cargarlo, otra para sacar algunos datos que nos sirvan, y otra para exportarlos en algo que no sea xls.
si alguien no sabe python que se apunte también. Si quiere aprender ahí le enseñamos, y si no quiere aprender, nos ayuda con el wiki o el mapa o la visualización, o lo que se le ocurra.
Ok por mi está bien…
recolectando información sobre transporte público.
Ya que menciona lo de descarga python tiene requests y scrapy
Uno sirve como navegador web por api python y es bastante potente (requests) y el otro sirve para hacer arañas en la web procesando datos con xpath
David Díaz
yo el que he usado es openpyxl https://openpyxl.readthedocs.io/en/default/
el otro no, habría que ver cuál es mejor
Bryan
Bueno a donde apunto BeautifulSoup ? (Es el que me gusta )
en el wiki, pongan todo ahí.
es un experimento, entonces tampoco importa mucho escoger la biblioteca correcta. Podemos implementar lo mismo dos veces para ver cuál nos gusta más.
Sip como experimento funciona cualquiera
Como dato pyexcel depende de openpyxl
Ya que es una biblioteca que intenta estandarizar la lectura de hojas de calculo de forma que uno no se preocupe por el formato
@cuyeo Ud puede subir los archivos de transporte que pasaron a este chat al repo ?
sí. Cualquiera en la org puede.
Sip solo que creí que usted los había recopilado
nop, aun no he hecho nada.
Para los que quieran apoyar y no sepan python
http://do1.dr-chuck.com/pythonlearn/ES_es/pythonlearn.pdf
aunque es de python 2.7 es un buen libro de referencia en español
jenkins
No aprendan 2.7, le quedan 3 años de soporte y muere Viva 3.4+
jaja 3.5 mejor ya el 3.4 va de salida
agregué a lo de buses un ejemplo y ese está en 3.4+, pero ese libro me parece bueno para aprender y la diferencia 2.7 y 3+ no es tanta en niveles básicos
Recuerden avisarnos los datos que van detectando que sea necesario solicitar por la vía legal. Visibilizar las peticiones de acceso a información, también es importante y ahí nosotros le entramos. Pero, por fa, pasen un mensaje directo porque no siempre puedo seguirles la pista por aquí.
@amareto por ahora, solo estamos escribiendo código que no depende de la licencia de los documentos.
luego cuando publiquemos documentos basados en esos, o visualizaciones, ahí sí necesitamos la parte legal.