» Articles » PMID: 27556963

Accuracy of Probabilistic and Deterministic Record Linkage: the Case of Tuberculosis

Overview
Specialty Public Health
Date 2016 Aug 25
PMID 27556963
Citations 13
Authors
Affiliations
Soon will be listed here.
Abstract

Objective: To analyze the accuracy of deterministic and probabilistic record linkage to identify TB duplicate records, as well as the characteristics of discordant pairs.

Methods: The study analyzed all TB records from 2009 to 2011 in the state of Rio de Janeiro. A deterministic record linkage algorithm was developed using a set of 70 rules, based on the combination of fragments of the key variables with or without modification (Soundex or substring). Each rule was formed by three or more fragments. The probabilistic approach required a cutoff point for the score, above which the links would be automatically classified as belonging to the same individual. The cutoff point was obtained by linkage of the Notifiable Diseases Information System - Tuberculosis database with itself, subsequent manual review and ROC curves and precision-recall. Sensitivity and specificity for accurate analysis were calculated.

Results: Accuracy ranged from 87.2% to 95.2% for sensitivity and 99.8% to 99.9% for specificity for probabilistic and deterministic record linkage, respectively. The occurrence of missing values for the key variables and the low percentage of similarity measure for name and date of birth were mainly responsible for the failure to identify records of the same individual with the techniques used.

Conclusions: The two techniques showed a high level of correlation for pair classification. Although deterministic linkage identified more duplicate records than probabilistic linkage, the latter retrieved records not identified by the former. User need and experience should be considered when choosing the best technique to be used.

Objetivo: Analisar a acurácia das técnicas determinística e probabilística para identificação de registros duplicados de tuberculose, assim como as características dos pares discordantes.

MÉtodos: Foram analisados todos os registros de tuberculose no período de 2009 a 2011 do estado do Rio de Janeiro. Foi desenvolvido algoritmo para relacionamento determinístico, usando conjunto de 70 regras, a partir da combinação de fragmentos das variáveis-chave com ou sem modificações (Soundex ou substring). Cada regra era formada por três ou mais fragmentos. Para a abordagem probabilística, foi necessário estabelecer ponto de corte para o escore, acima do qual os links seriam classificados automaticamente como pertencentes ao mesmo indivíduo. O ponto de corte foi obtido por meio do relacionamento da base de dados Sistema de Informação de Agravos de Notificação - Tuberculose com ela mesma, posterior revisão manual e curvas ROC e precision-recall. Foram calculadas a sensibilidade e especificidade para análise de acurácia.

Resultados: A acurácia variou de 87,2% a 95,2% para sensibilidade e 99,8% a 99,9% para especificidade para as técnicas probabilística e determinística, respectivamente. A presença de valores faltantes para as variáveis-chave e o baixo percentual da medida de similaridade para o nome e data de nascimento foram os principais responsáveis pela não identificação dos registros do mesmo indivíduo pelas técnicas utilizadas.

ConclusÕes: As duas técnicas apresentam alta concordância para a classificação como par. Apesar de a técnica determinística ter identificado mais registros duplicados que a probabilística, a segunda recuperou registros não identificados pela primeira. A necessidade e a experiência do usuário devem ser consideradas para a escolha da técnica a ser utilizada.

Citing Articles

Accuracy, potential, and limitations of probabilistic record linkage in identifying deaths by gender identity and sexual orientation in the state of Rio De Janeiro, Brazil.

Rafael R, Silva K, Goncalves de Souza Santos H, Depret D, Caravaca-Morera J, Breda K BMC Public Health. 2024; 24(1):1475.

PMID: 38824562 PMC: 11144332. DOI: 10.1186/s12889-024-19002-x.


Record Linkage for Malaria Deaths Data Recovery and Surveillance in Brazil.

Garcia K, Xavier D, Soremekun S, Abrahao A, Drakeley C, Ramalho W Trop Med Infect Dis. 2023; 8(12).

PMID: 38133451 PMC: 10748166. DOI: 10.3390/tropicalmed8120519.


High Tuberculosis Density Incidence Rate in Matched Unrelated Allogeneic Stem Cell Transplantation Recipients in the State of São Paulo, Brazil.

Litvoc M, Leal F, Ferreira D, Ferreira Lopes M, Capuani L, Rocha V Mediterr J Hematol Infect Dis. 2023; 15(1):e2023037.

PMID: 37435037 PMC: 10332347. DOI: 10.4084/MJHID.2023.037.


Completeness and Factors Affecting Community Workers' Reporting of Births and Deaths in the Countrywide Mortality Surveillance for Action in Mozambique.

Kante A, Mulungo A, Ibraimo M, Akum A, Titus N, Adriano A Am J Trop Med Hyg. 2023; 108(5_Suppl):29-39.

PMID: 37037434 PMC: 10160863. DOI: 10.4269/ajtmh.22-0537.


Analysis of the completeness of self-harm and suicide records in Pernambuco, Brazil, 2014-2016.

da Fonseca J, de Oliveira C, de Castro C, Da Costa H, Galvao P, da Costa Ceballos A BMC Public Health. 2022; 22(1):1154.

PMID: 35681172 PMC: 9178859. DOI: 10.1186/s12889-022-13455-8.


References
1.
Grannis S, Overhage J, Hui S, McDonald C . Analysis of a probabilistic record linkage technique without human review. AMIA Annu Symp Proc. 2004; :259-63. PMC: 1479910. View

2.
de Camargo Jr K, Coeli C . Going open source: some lessons learned from the development of OpenRecLink. Cad Saude Publica. 2015; 31(2):257-63. DOI: 10.1590/0102-311x00041214. View

3.
Bierrenbach A, de Oliveira G, Codenotti S, Gomes A, Stevens A . Duplicates and misclassification of tuberculosis notification records in Brazil, 2001-2007. Int J Tuberc Lung Dis. 2010; 14(5):593-9. View

4.
Pacheco A, Saraceni V, Tuboi S, Moulton L, Chaisson R, Cavalcante S . Validation of a hierarchical deterministic record-linkage algorithm using data from 2 different cohorts of human immunodeficiency virus-infected persons and mortality databases in Brazil. Am J Epidemiol. 2008; 168(11):1326-32. PMC: 2638543. DOI: 10.1093/aje/kwn249. View

5.
Migowski A, Chaves R, Coeli C, Ribeiro A, Tura B, Kuschnir M . Accuracy of probabilistic record linkage in the assessment of high-complexity cardiology procedures. Rev Saude Publica. 2011; 45(2):269-75. DOI: 10.1590/s0034-89102011005000012. View