Cuando se trata de bases de datos en línea e información que se puede encontrar dentro de lo que comúnmente se conoce como los "motores de búsqueda invisibles de la web 10 para explorar la Web invisible 10, los motores de búsqueda exploran la red invisible". Estamos familiarizados con la web. ¿Pero sabías que hay una gran cantidad de información a la que los motores de búsqueda como Google no tienen acceso directo? Esta es la red invisible. Leer más ", no soy tu usuario típico. Claro, paso demasiado tiempo revisando las bases de datos en línea en lugares como los Archivos Nacionales y la sala de lectura FOIA de la CIA, pero debo decir que no me emociona más que cuando encuentro una tabla basada en HTML llena de volúmenes. de datos aparentemente complejos y desconectados.
El hecho es que las tablas de datos son una mina de oro de verdades importantes. Los datos a menudo son recopilados por ejércitos de gruñidos de recolección de datos con botas en el suelo. Hay personas del Censo de EE. UU. Que viajan por todo el país en busca de información familiar y familiar. Tienes grupos ambientales sin fines de lucro que recopilan todo tipo de información interesante sobre el medioambiente, la contaminación, el calentamiento global y más. Y si te gustan los fenómenos paranormales o la ufología, también hay tablas de información constantemente actualizadas sobre avistamientos de objetos extraños en el cielo sobre nosotros.
Irónicamente, uno pensaría que cualquier gobierno en el mundo estaría interesado en saber qué tipo de naves extranjeras están siendo avistadas en los cielos de cualquier país, pero aparentemente no, al menos no en los EE. UU. De todos modos. En Estados Unidos, la colección de avistamientos inusuales de artesanías ha sido relegada a equipos de aficionados aficionados que acuden a nuevos avistamientos de ovnis como polillas a una llama. Mi interés en estos avistamientos en realidad no proviene de la fascinación por extraterrestres o artesanías de otros planetas, sino de una fascinación científica por los patrones: dónde y por qué más personas ven cosas en el cielo, y si esos avistamientos podrían reflejar algo muy real y mucho en realidad, más abajo de la Tierra.
Para explorar los volúmenes de datos recopilados por los equipos de aficionados a los OVNIS, de hecho he desarrollado una forma de importar grandes tablas HTML de datos en una hoja de cálculo de Google, y luego manipular y analizar esos datos para extraer y descubrir información importante y significativa. En este artículo, pretendo mostrarte cómo hacer lo mismo.
Datos HTML importantes en la hoja de cálculo de Google
En este ejemplo, le mostraré cómo importar cualquier información que pueda almacenarse en una tabla en cualquier sitio web en Internet, en su hoja de cálculo de Google. Piense en el enorme volumen de datos que está disponible hoy en Internet en forma de tablas HTML. Wikipedia solo tiene datos en tablas para temas como el calentamiento global, la Oficina del Censo de EE. UU. Tiene toneladas de conjuntos de datos de población, y un poco de Google le dará mucho más que eso.
En mi ejemplo, estoy comenzando con una base de datos en el Centro Nacional de Informes OVNI que en realidad parece que podría ser una base de datos profunda de estilo de consulta, pero si observa la estructuración de URL, en realidad es una red semi-compleja. sistema de informes basado en páginas web estáticas y tablas HTML estáticas, exactamente lo que queremos cuando buscamos datos para importar.
NUForc.org es una de esas organizaciones que sirve como uno de los mayores centros de informes para avistamientos de ovnis. No es el único, pero es lo suficientemente grande como para encontrar nuevos conjuntos de datos con avistamientos actuales para cada mes. Eliges ver los datos ordenados por criterios como Estado o Fecha, y cada uno de ellos se proporciona en forma de página estática. Si ordena por fecha y luego hace clic en la fecha más reciente, verá que la tabla allí enumerada es una página web estática nombrada según el formato de fecha.
Entonces, ahora tenemos un patrón para extraer regularmente la última información de observaciones de esta base de datos basada en HTML. Todo lo que tiene que hacer es importar la primera tabla, usar la entrada más reciente (la superior) para identificar la última actualización y luego usar la fecha de esa publicación para construir el enlace URL donde se encuentra la última tabla de datos HTML. Hacer esto simplemente requerirá un par de instancias de la función ImportHTML, y luego algunos usos creativos de las funciones de manipulación de texto. Cuando hayas terminado, tendrás una de las hojas de cálculo de informes que mejor se actualizan automáticamente. Empecemos.
Importación de tablas y manipulación de datos
El primer paso, por supuesto, es crear la nueva hoja de cálculo.
Entonces, ¿cómo se importan las tablas HTML? Todo lo que necesita es la URL donde está almacenada la tabla, y el número de la tabla en la página, generalmente la primera que aparece es 1, la segunda es 2, y así sucesivamente. Como conozco la URL de esa primera tabla que enumera las fechas y los conteos de avistamientos enumerados, es posible importar escribiendo la siguiente función en la celda A1.
= importhtml ("http://www.nuforc.org/webreports/ndxpost.html?" & H2, "table", 1)
H2 tiene la función " = hora (ahora ()) ", por lo que la tabla se actualizará cada hora. Esto es probablemente extremo para los datos que lo actualizan con poca frecuencia, por lo que probablemente me saldré con la tuya a diario. De todos modos, la función ImportHTML anterior trae la tabla como se muestra a continuación.
Tendrá que hacer un poco de manipulación de datos en esta página antes de armar la URL de la segunda tabla con todos los avistamientos de ovnis. Pero continúe y cree la segunda hoja en el libro de trabajo.
Antes de intentar crear esa segunda hoja, es hora de extraer la fecha de publicación de esta primera tabla, para construir el enlace a la segunda tabla. El problema es que la fecha se presenta como un formato de fecha, no como una cadena. Entonces, primero necesita usar la función TEXTO para convertir la fecha de publicación del informe en una cadena:
= texto (A2, "mm / dd / aa")
En la celda siguiente a la derecha, debe usar la función SPLIT con el delimitador "/" para dividir la fecha en mes, día y año.
= división (D2, "/")
¡Luciendo bien! Sin embargo, cada número debe ser forzado a dos dígitos. Haga esto en las celdas justo debajo de ellos usando el comando TEXTO nuevamente.
= texto (E2, "00")
Un formato de "00" (esos son ceros) fuerza dos dígitos, o un "0" como marcador de posición.
Ahora está listo para reconstruir toda la URL a la última tabla HTML de nuevos avistamientos. Puede hacer esto utilizando la función CONCATENAR y unir todos los bits de información que acaba de extraer de la primera tabla.
= concatenar ("http://www.nuforc.org/webreports/ndxp", G3, E3, F3, ".html")
Ahora, en la nueva hoja que creó arriba (la hoja en blanco), va a hacer una nueva función "importhtml", pero esta vez para el primer parámetro de enlace URL, por lo que va a volver a la primera hoja de cálculo y haga clic en la celda con el enlace URL que acaba de crear.
El segundo parámetro es "tabla" y el último es "1" (porque la tabla de observaciones es la primera y solo en la página). Presiona ingresar, y ahora acabas de importar todo el volumen de avistamientos que se publicaron en esa fecha en particular.
Entonces, probablemente estés pensando que esta es una buena novedad y todo, quiero decir, después de todo, lo que has hecho es extraer la información existente de una tabla en Internet y migrarla a otra mesa, aunque sea privada en tu Cuenta de Google Docs Sí, eso es verdad. Sin embargo, ahora que está en su propia cuenta privada de Google Docs, tiene a su alcance las herramientas y funciones para analizar mejor esos datos y comenzar a descubrir conexiones increíbles.
Uso de informes dinámicos para analizar datos importados
Recientemente, escribí un artículo sobre cómo usar Pivot Reports en Google Spreadsheet Convertirse en un analista de datos experto Usar las herramientas de informes en Google Spreadsheet Convertirse en un experto Analista de datos Usar el informe de Google en Google Sketch Tools ¿Sabía que una de las mejores herramientas para llevar a cabo los datos? El análisis en realidad es Google Spreadsheet? La razón de esto no es solo porque puede hacer casi todo lo que pueda desear ... Leer más para realizar todo tipo de proezas de análisis de datos geniales. Bueno, puedes hacer las mismas increíbles acrobacias de análisis de datos en los datos que has importado de Internet, dándote la capacidad de descubrir conexiones interesantes que posiblemente nadie más haya descubierto antes que tú.
Por ejemplo, desde la tabla de visiones finales, podría decidir usar un informe de pivote para observar el número de formas únicas diferentes reportadas en cada estado, en comparación con el número total de avistamientos en ese estado en particular. Finalmente, también filtre todo lo que mencione "extraterrestres" en la sección de comentarios, con la esperanza de eliminar algunas de las entradas más de la patilla.
Esto realmente revela algunas cosas bastante interesantes desde el principio, como el hecho de que California tiene claramente el mayor número de avistamientos reportados de cualquier otro estado, junto con la distinción de informar la mayor cantidad de formas artesanales en el país. También muestra que Massachusetts, Florida e Illinois también son grandes bateadores en el departamento de avistamientos de ovnis (al menos en los datos más recientes).
Otra cosa interesante de Google Spreadsheet es la amplia gama de gráficos disponibles para ti, incluido un Geo-Map que te permite diseñar "puntos calientes" de datos en un formato gráfico que realmente se destaca y hace que esas conexiones dentro de los datos sean bastante obvias.
Si lo piensas, esto es realmente solo la punta del iceberg. Si ahora puede importar datos desde tablas de datos en cualquier página en Internet, solo piense en las posibilidades. Obtenga los últimos números de inventario, o los 10 libros y autores más recientes en la lista de best-sellers del New York Times, o los autos más vendidos del mundo. Hay tablas HTML disponibles en casi cualquier tema que pueda imaginar, y en muchos casos esas tablas se actualizan con frecuencia.
ImportHtml le da la capacidad de conectar su hoja de cálculo de Google en Internet y alimentar los datos que existen por ahí. Puede convertirse en su propio centro de información personal que puede usar para manipular y masajear en un formato con el que realmente pueda trabajar. Es solo una cosa más genial para amar sobre Google Spreadsheet.
¿Alguna vez ha importado datos en sus hojas de cálculo? ¿Qué tipo de cosas interesantes descubriste en esa información? ¿Cómo usaste los datos? ¡Comparte tus experiencias e ideas en la sección de comentarios a continuación!
Créditos de las imágenes: Business Graph