Mayor cantidad de datos no significa necesariamente mayor conocimiento |
El Big Data y el mito de una ciencia sin teoría
¿Son las correlaciones más importantes que la causalidad? El énfasis excesivo en los números y en los datos es otra forma del mito de la objetividad del conocimiento científico
Autor: Mazzocchi Fulvio Embo Reports 16(10):1250-1255, Oct 2015
Introducción y objetivos |
Estos macrodatos representan conjuntos de datos tan grandes que las aplicaciones informáticas tradicionales de procesamiento y los procedimientos habitualmente usados para encontrar patrones repetitivos dentro de esos datos no son suficientes para tratar con ellos. Y su manipulación implica la necesidad de algoritmos sofisticados y de nuevas herramientas estadísticas para encontrar, dentro de estas cantidades masivas de datos, información significativa que pueda ser transformada en conocimiento.
La discusión sobre los méritos relativos de la investigación basada en datos frente a la investigación basada en hipótesis tiene relevancia en muchas áreas del conocimiento, incluidas la bioinformática, la biología de sistemas, la epidemiología y la ecología. |
- ¿Es la investigación basada en datos un modo válido de generación de conocimiento, o representa sobre todo una herramienta para identificar información potencialmente útil?
- Dada la cantidad disponible de datos científicos, ¿es hoy posible descartar el papel de las conjeturas teóricas y de las hipótesis?
- ¿Reemplazará este nuevo modo de reunir información las formas antiguas de hacerlo?
¿Ciencia basada en macrodatos? |
La ciencia basada en macrodatos renueva la primacía del razonamiento inductivo, en la forma de un empirismo fundado en una tecnologíaLa idea de relegar las hipótesis a un papel secundario no es, sin embargo, nueva. El concepto que el conocimiento científico no debería estar fundamentado en ideas preconcebidas, sino en datos obtenidos a través de la experimentación, ya había sido sostenido en el siglo XVII por Francis Bacon, considerado el padre del método científico. El filósofo sostuvo que la anteposición de una premisa a un resultado experimental reducía la amplitud analítica, que trataba de ceñir las conclusiones a esa premisa, lo que implicaba, argumentó, una limitación del razonamiento deductivo.
La ciencia basada en macrodatos renueva la primacía del razonamiento inductivo, en la forma de un empirismo fundado en una tecnología capaz de explorar datos masivos y de extraer información en forma automatizada, con la convicción que este abordaje conduce a nuevos descubrimientos, sin la participación de una hipótesis previa.
Para los sostenedores de este modelo, los procesos inductivos y la manipulación estadística de grandes cantidades de datos descubren correlaciones, patrones y leyes, sin necesidad de una teoría previa. Este abordaje puede ser visto como un generador de hipótesis, en contraste con las pruebas de hipótesis características de la ciencia clásica.
En el centro de este abordaje está el uso de algoritmos inductivos que tienen la particularidad de generar inferencias, que son modificadas por nuevos algoritmos, en un proceso de razonamiento indefinido. Los mejores algoritmos inductivos son capaces de evolucionar y de “aprender”, lo que refina las exploraciones y extracciones de datos subsiguientes. El proceso no está impulsado por una hipótesis determinada. Estas técnicas han producido resultados valiosos en campos como la bioinformática, los ecosistemas y las micromatrices genómicas.
Algunos expertos sostienen que los macrodatos van a producir un cambio radical en la ciencia, y mencionan 3 innovaciones clave que los macrodatos introducen:
- El volumen sin precedentes de datos disponibles garantiza un análisis de máxima inclusión, sin necesidad de enfocarse en porciones acotadas de datos. Se elimina la preocupación por el tamaño muestral y por las técnicas de aleatorización.
- Los macrodatos disminuyen los requerimientos de exactitud y de precisión de los datos analizados, disminuyen los errores de medición y reflejan mejor la complejidad de los fenómenos naturales.
- Los macrodatos ponen un fuerte énfasis en las correlaciones entre los datos como herramienta heurística para hallar asociaciones no esperables por la sola acción del azar.
La tesis de la “no-teoría” |
¿Son las correlaciones más importantes que la causalidad?El autor, si bien concuerda con que los macrodatos representan una oportunidad novedosa para la investigación científica, expresa sus diferencias con la presunta neutralidad de los números o con la tesis que las correlaciones son más importantes que la causalidad.
La generación de enormes cantidades de datos (en el orden de petabytes) y las nuevas técnicas de exploración y de extracción de datos han permitido encontrarpatrones relevantes, que a veces no surgen de relaciones lineales, en ciencias como la genómica o la astronomía.
Sin embargo, conocer el porqué de ciertos fenómenos es crucial para alcanzar un nivel de conocimiento que pueda ser usado con confianza en aplicaciones prácticas. Más aún, las correlaciones encontradas en el análisis de macrodatos deben ser sometidas a pruebas ulteriores, para distinguir entre correlaciones significativas y correlaciones espurias.
Una mayor cantidad de datos no significa necesariamente un mayor conocimientoPara el autor, una mayor cantidad de datos no significa necesariamente un mayor conocimiento, por lo que rechaza explícitamente el concepto repetido que “con suficiente cantidad de datos, los números hablan por sí mismos”.
La tesis de la no-teoría contrasta con el hecho que la recolección de datos no es un proceso puramente empírico, realizado al azar. Más bien, los experimentos son llevados adelante dentro de limitaciones teóricas, metodológicas e instrumentales, muchas veces para probar una predicción teórica en el campo de la experiencia real.
La investigación científica, por otro lado, no tiene lugar en un ambiente de hechos puramente teóricos y experimentales, sino que es llevada a cabo por personas, cuya capacidad cognitiva se ha formado por la amalgama de conocimientos prácticos, valores, preconceptos e improntas culturales, sociales y racionales.
Todos estos factores confluyen en hipótesis explicativas preliminares, que funcionan como conjeturas que deben comprobarse empíricamente, y que indican qué tipo de datos deben recolectarse. Incluso más, estos factores también están presentes en las personas que diseñan los algoritmos de búsqueda de patrones, que luego las computadoras aplican a los macrodatos.
En un terreno más teórico, algunos pensadores han observado que en los descubrimientos científicos considerados revolucionarios juegan siempre un papel crucial las “anomalías” que aparecen durante la investigación. Estas anomalías pueden ser percibidas solo por contraste, y para ello es necesaria una presunción previa de cuál debería ser el comportamiento del fenómeno a observar.
El énfasis excesivo en los números y en los datos es otra forma del mito de la objetividad del conocimiento científicoIncluso después de identificada la anomalía, el proceso ulterior involucra nuevamente la reevaluación de las hipótesis y de las metodologías. Para estos pensadores, el énfasis excesivo en los números y en los datos (aun en cantidades masivas analizadas por computadoras muy potentes) es otra forma del mito de la objetividad del conocimiento científico.
El autor observa que encuadrar el tema de los macrodatos en término de oposiciones (deducción o inducción, análisis con hipótesis o análisis sin hipótesis, hombre o máquina, etc.) lleva a la pérdida de la perspectiva de que ambas estrategias son necesarias y complementarias.
La creatividad humana es aún un componente indispensable en la cienciaLa fase inductiva y la fase deductiva deben ser consideradas como partesinseparables en el ciclo iterativo de adquisición de conocimientos. Los avances tecnológicos deben secundar a los investigadores para generar hipótesis, para evaluarlas y para, eventualmente, rechazarlas. La creatividad humana es aún un componente indispensable en la ciencia.
Conclusiones |
SIIC- Sociedad Iberoamericana de Información Científica
No hay comentarios:
Publicar un comentario