Data Quality Management in Problem Solving Using Research Infrastructures over Heterogeneous Data Sources

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

Решение задач на основе доступных научных данных, особенно в контексте открытой науки и исследовательских инфраструктур, должно обеспечивать возможность их многократного повторного использования. Показатели качества данных являются важными характеристиками, влияющими не только на точность методов при решении исследовательских задач, но и на оценку пригодности данных, возможность решения конкретных научных задач, выбор методов работы с данными, их совместимость, возможность отождествления объектов и другие аспекты повторного использования. При этом требуется оценка различных показателей качества данных на разных уровнях агрегации – от целых наборов данных до отдельных значений. Вданном исследовании представлен подход к комплексному управлению качеством данных на основе их спецификаций, а также требований к качеству данных и метаданных. Обсуждаются различные показатели оценки качества данных, включая точность, полноту и происхождение. Разработанный подход применен на примере решения задач с использованием множественных источников данных в области звездной астрономии.

About the authors

N. A Skvortsov

Email: nskv@mail.ru

References

  1. Wand Y., Wang R. Anchoring data quality dimensions in ontological foundations // Communications of the ACM. New York: ACM, 1996. V. 39. No. 11. P. 86–95.
  2. Ballou D., Pazer H. Modeling data and process quality in multi-input, multioutput information systems // Management Sci. 1985. V. 31. No. 2. P. 150–162. https://doi.org/10.1287/mnsc.31.2.150
  3. Wang R., Strong D. Beyond accuracy: What data quality means to data consumers // J. Management Inform. Syst. 1996. V. 12. No. 4. P. 5–33. URL: http://www.jstor.org/stable/40398176
  4. Batini C., Scannapieco M. Data quality: concepts, methodologies and techniques. Heidelberg: Springer, 2006. 262 p. https://doi.org/10.1007/3-540-33173-5
  5. ГОСТ Р 56214-2014. Качество данных. Часть 1. Обзор. М.: Стандартинформ, 2015.
  6. ГОСТ Р 57773-2017. Пространственные данные. Качество данных. М.: Стандартинформ, 2017.
  7. Wilkinson M., Dumontier M., Aalbersberg I., et al. The FAIR Guiding principles for scientific data management and stewardship // Sci. Data 2016. V. 3. Article 160018. https://doi.org/10.1038/sdata.2016.18
  8. FAIR data maturity model. Specification and guidelines. Version 1.0. RDA FAIR Data Maturity Model Working Group. Geneva: Zenodo, 2020. https://doi.org/10.15497/rda00050
  9. FAIRsFAIR. Fostering FAIR Data Practices in Europe. URL: https://www.fairsfair.eu/
  10. Devaraju A., Mokrane M., Cepinskas L., et al. From conceptualization to implementation: FAIR Assessment of Research Data Objects // Data Sci. J. 2021. V. 20. No. 1. Article 4. https://doi.org/10.5334/dsj-2021-004
  11. The FAIR cookbook for FAIR doers. URL: https://faircookbook.elixir-europe.org/
  12. Harrow J., Drysdale R., Smith A., et al. ELIXIR: providing a sustainable infrastructure for life science data at European scale // Bioinformatics. Oxford: Oxford University, 2021. V. 37. No. 16. P. 2506–2511. https://doi.org/10.1093/bioinformatics/btab481
  13. ELIXIR Platforms. URL: https://elixir-europe.org/platforms
  14. Recommendations from the Data Quality Working Group. NASA ES DSWG, 2019. URL: https://www.earthdata.nasa.gov/esdis/esco/standards-andpractices/recommendations-from-the-data-quality-working-group
  15. Data Quality Working Group’s comprehensive recommendations for data producers and distributors. NASA ES DSWG, 2019. URL: https://www.earthdata.nasa.gov/s3fs-public/imported/ESDS-RFC-033.pdf
  16. ESIP Information Quality Cluster. Earth Science Information Partners (ESIP). URL: http://wiki.esipfed.org/index.php/Information_Quality
  17. Peng G., Privette J., Kearns E., et al. A unified framework for measuring stewardship practices applied to digital environmental datasets // Data Sci. J. 2015. V. 13. No. 2. P. 231–253. https://doi.org/10.2481/dsj.14-049
  18. ISO 19157-1:2023 Geographic information - Data quality. Part 1. General requirements. Geneva: ISO, 2023. URL: https://www.iso.org/standard/78900.html
  19. Sirotnak C., Cook J. The total economic impact of Talend. Cost savings and business benefits enabled by Talend Solutions. Cambridge: Forrester, 2023. URL: https://www.talend.com/lp/the-total-economic-impact-of-talend/
  20. Chien M., Medd J. Magic Quadrant for Augmented Data Quality Solutions. Stamford: Gartner, 2024. URL: https://www.gartner.com/en/documents/5257863
  21. Furber C. Data quality management with semantic technologies. Thesis. Wiesbaden: Springer Gabler, 2016. https://doi.org/10.1007/978-3-658-12225-6
  22. Berners-Lee T., Hendler J., Lassila O. The Semantic Web // Scientific American 2001. V. 284. No. 5. P. 34–43. URL: https://www.jstor.org/stable/26059207
  23. Cyganiak R., Wood D., Lanthaler M. (eds.). RDF 1.1 Concepts and Abstract Syntax. W3C Recommendation. Wakefield: W3C, 2014. URL: http://www.w3.org/TR/rdf11-primer/
  24. Furber C., Hepp M. Towards a vocabulary for data quality management in Semantic Web architectures // Proceedings of the 1st International Workshop on Linked Web Data Management (LWDM2011). New York: ACM, 2011. P. 1–8. https://doi.org/10.1145/1966901.1966903
  25. Hartig O., Zhao J. Provenance Vocabulary Core Ontology Specification. San Diego: SourceForge, 2012. URL: https://trdf.sourceforge.net/provenance/ns.html
  26. Taleb I., Taleb, Serhani M., Bouhaddioui C., et al. Big data quality framework: a holistic approach to continuous quality management // J. of Big Data 2021. V. 8. Article 76. https://doi.org/10.1186/s40537-021-00468-0
  27. Gallo R. Data quality with FAIR principles, an introduction. The Hyve, 2024. URL: https://www.thehyve.nl/articles/data-quality-with-fair-principles
  28. Skvortsov N. The principles of data reuse in research infrastructures // Proceedings of the International Conference Common Digital Space of Scientific Knowledge: Problems and Solutions (CDSSK 2020). Aachen: CEUR WS, 2021. V. 2990. P. 62–74. URL: https://ceur-ws.org/Vol-2990/rpaper6.pdf
  29. PROV-Overview: An overview of the PROV family of documents. W3C Working Group Note. Wakefield: W3C, 2013. URL: http://www.w3.org/TR/prov-overview/
  30. Data on the Web Best Practices: Data quality vocabulary. W3C Working Group Note. Wakefield: W3C, 2016. URL: https://www.w3.org/TR/vocab-dqv/
  31. Albertoni R., Isaac A. (eds.). Data catalog vocabulary (DCAT), Version 3. W3C Recommendation. Wakefield: W3C, 2024. URL: https://www.w3.org/TR/vocab-dcat/
  32. Alam S., Albareti F., Prieto C., et al. The eleventh and twelfth data releases of the Sloan Digital Sky Survey: Final data from SDSS-III // Astrophys. J. Suppl. Ser. 2015. V. 219. No. 1. P. 12. https://doi.org/10.1088/0067-0049/219/1/12
  33. Lawrence A., Warren S., Almaini O., et al. The UKIRT Infrared Deep Sky Survey (UKIDSS) // Mon. Not. R. Astron. Soc. 2007. V. 379. No. 4. P. 1599–1617. https://doi.org/10.1111/j.1365-2966.2007.12040.x
  34. Bianchi L., Herald J., Efremova B., et al. GALEX catalogs of UV sources: statistical properties and sample science applications: hot white dwarfs in the Milky Way // Astrophys. Space Sci. 2011. V. 335. No. 1. P. 161–169. https://doi.org/10.1007/s10509-010-0581-x
  35. Bianchi L., Shiao B., Thilker D. Revised catalog of GALEX ultraviolet sources. I. The All-Sky Survey: GUVcat_AIS // Astrophys. J. Suppl. Ser. 2017. V. 230. No. 2. P. 24. https://doi.org/10.3847/1538-4365/aa7053
  36. Malkov O., Dluzhnevskaya O., Karpov S., et al. Cross catalogue matching with Virtual Observatory and parameterization of stars // Open Astronomy 2012. V. 21. No. 3. P. 319–330. https://doi.org/10.1515/astro-2017-0390
  37. Gray J., Szalay A., Budavari T., et al. Cross-Matching Multiple Spatial Observations and Dealing with Missing Data. Microsoft Technical Report, MSR-TR-2006-175. Redmond: Microsoft Research, 2006. https://doi.org/10.48550/arXiv.cs/0701172

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2025 The Russian Academy of Sciences

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).