Los métodos analíticos de espectroscopía son mayoritariamente cuantitativos y están destinados a un pequeño número de especies químicas, por ejemplo al contenido de proteínas en trigo o al contenido de humedad en un proceso farmacéutico de secado. Para caracterizar la performance de estos sistemas se suelen utilizar criterios tradicionales como el error cuadrático medio, la sensibilidad, la selectividad y el límite de detección.
Sistemas de espectroscopía FTIR e instrumentos portátiles Raman están siendo utilizados cada vez más en tareas de análisis cualitativo, particularmente en la verificación in situ de materias primas. Para este tipo de tareas, las formas tradicionales de medición no se adaptan de la mejor manera. Además, ya que estos instrumentos están empezando a ser utilizados por personal no especializado, deberían ser rigurosamente caracterizados en términos de sus atributos de usuario final.
Decisiones y resultados
El personal de laboratorio suele asociar la identificación de material mediante la búsqueda en una biblioteca de espectros, con un procedimiento similar al de las herramientas de búsqueda en Internet. Se realiza una consulta al motor de búsqueda mientras se presenta el material ante el sistema de espectroscopía, y los resultados se presentan según un criterio de ordenamiento para que los revise un experto. Pero los usuarios de estos sistemas portátiles de identificación en general no son expertos en espectroscopia, de manera que confían en un algoritmo para transformar los datos del instrumento en resultados cualitativos.
Como en todas las decisiones basadas en datos reales, este resultado cualitativo es invariablemente correcto o incorrecto, sin que haya otra alternativa. Sin embargo, en la identificación de materiales por espectroscopía, el árbol de resultados es algo más complejo, como se ve a continuación.
Árbol de decisión de los materiales de identificación
En consecuencia, la pregunta fundamental de todo usuario es: ¿con cuánta frecuencia identifico correctamente un material desconocido, y con cuánta frecuencia me equivoco?
Caracterización de la performance
Durante mucho tiempo se han utilizado curvas ROC (“receiver operator characteristic”)1-3 para representar el compromiso entre la sensibilidad de la detección y la tasa de falsos-positivos en los tests cualitativos. Se trata de descriptores gráficos que permiten interpretar fácilmente la capacidad de testeo. No obstante, las curvas ROC son insuficientes para la identificación de materiales al menos en un sentido: los sistemas espectroscópicos pueden arrojar registros de múltiples materiales en respuesta a una única consulta. En consecuencia, la precisión cualitativa es una característica adicional importante desde el punto de vista del usuario final.
La eficacia de los sistemas de recuperación de datos normalmente se caracteriza mediante curvas PR (“precision-recall”) 4. En el estudio de McLafferty et al. se utilizan curvas PR5 para la evaluación del software de búsqueda en bibliotecas de espectros de masas; sin embargo, el objetivo era la identificación de subestructuras, no una identificación molecular completa. Además, la curva PR no refleja las tasas de falsos-positivos, ya que en la recuperación de archivos se asume que siempre hay registros relevantes en la base de datos. Este supuesto es inadecuado en la identificación de material por espectroscopía, ya que los sistemas inevitablemente se encontrarán con materiales que no se encuentran en la biblioteca utilizada.
Por lo tanto, es necesario construir los parámetros necesarios para un sistema espectroscópico de identificación de materiales que puede ser caracterizado por:
Tasa de verdaderos positivos [t] : si los materiales que están en la biblioteca del sistema se testean bajo condiciones de campo, ¿cuál es la probabilidad de que el sistema encuentre una coincidencia entre un material desconocido y el registro correcto de la biblioteca?
Tasa de falsos positivos [t] : si se testea bajo condiciones de campo materiales que no están en la biblioteca del sistema, ¿cuál es la probabilidad de que el sistema encuentre una coincidencia falsa entre un material desconocido y un registro de la biblioteca?
Imprecisión [t] : cuando el sistema encuentra una coincidencia, ya sea correcta o incorrecta, ¿qué tan larga es la lista de materiales inadecuadamente incluidos?
Para evaluar sus características operativas, también hay que suponer que el sistema espectroscópico de identificación de materiales posee un parámetro ajustable (llamado “t” en los tres puntos de arriba) que permite configurar el grado de rigor en la identificación de materiales. Esto es, cuán “liberal” o “conservador” es al sugerir la identidad de un material.
Experimento
Se examinó la performance del sistema TruScan, un instrumento portátil de verificación de materiales por espectroscopía Raman, desarrollado por Ahura Scientific. Este dispositivo utiliza un láser de excitación de 785 nm, con un ancho de línea menor a los 0,2 nm, y un rango de desplazamiento Raman de 200 a 2900 cm-1. Sistemas integrados en el instrumento manejan la adquisición de datos y los cálculos, y la pantalla integrada permite la navegación del sistema y la visualización de los resultados. Con un peso menor a 2 kg, el instrumento cuenta con un diseño hermético y robusto, pensado para cubrir las necesidades específicas del uso portátil y operado por personal no especializado en ambientes de producción. En consecuencia, la verificación empírica de su performance resulta decisiva.
El experimento se desarrolló durante 8 semanas, con la participación de diferentes instrumentos y operadores utilizando materiales tomados al azar por número de serie. Esto involucró:
6 instrumentos
6 operadores
261 materiales diferentes
790 mediciones totales
335 mediciones en viales
455 mediciones libres
376 mediciones de líquidos
414 mediciones de sólidos
1454 desafíos totales a los sistemas
Cinco de los operadores tenían una mínima experiencia con el instrumento (equivalente a dos días de entrenamiento), mientras que el sexto era un principiante con sólo diez minutos de entrenamiento al comenzar el estudio.
De las 790 mediciones, 664 fueron de materiales presentes en la biblioteca del sistema. Para una evaluación más rigurosa de la tasa de falsos-positivos, los resultados de estas mediciones se volvieron a analizar, eliminando el registro en biblioteca correspondiente y revisando los resultados en busca de posibles falsos-positivos. Los instrumentos ejecutaron en tiempo real la versión incluida en ellos del software de verificación probabilística de materiales, operando en modo “auto-measure”, en el que todos los parámetros de medición son ajustados automáticamente para cada muestra.
Resultados
A continuación se muestra la curva ROC agregada6 de los seis instrumentos. La línea roja muestra los puntos de medición, mientras que el área celeste indica la incertidumbre experimental (percentil 95) en la estimación de los mismos. El área por debajo de esta curva ROC, una medida global de la exactitud cualitativa, es de 96,9 % con una incertidumbre de 1,0 % (percentil 95).
Se nota que los resultados de los seis instrumentos involucrados fueron muy consistentes entre sí.
El equipo FD1203 mostró una performance distintivamente menor en la medición de sólidos libres. Este fue el instrumento operado por el usuario menos experimentado, y por tanto más proclive al error humano. No se observaron otras degradaciones en la performance asociadas al estado del material (sólido o líquido) o a la geometría de medición (en viales o material libre). A continuación se tabulan las áreas bajo las curvas ROC para todos los estratos del experimento.
Muestras | Instrumentos (por número de serie) | Agregado | |||||
FD1006 | FD1051 | FD1053 | FD0801 | FD1603 | FD1203 | ||
Todas | 97,3 % | 97,2 % | 98,8 % | 97,5 % | 98,3 % | 94,6 % | 96,9 % (31,0 %) |
Libres | 94,7 % | 95,1 % | 99,1 % | 98,8 % | 99,9 % | 92,1 % | 95,6 % (31,7 %) |
En vial | 99,4 % | 99,5 % | 98,7 % | 96,4 % | 97,1 % | 97,1 % | 98,2 % (31,1 %) |
Líquidas | 94,6 % | 96,0 % | 98,7 % | 98,0 % | 99,2 % | 96,9 % | 97,0 % (31,4 %) |
Sólidas | 99,2 % | 98,3 % | 99,5 % | 95,8 % | 96,0 % | 92,4 % | 97,0 % (31,5 %) |
Como la curva ROC no ofrece información sobre la precisión, a continuación se presenta una tabla con las características de precisión del experimento.
Nº de posibles materiales identificados | Porcentaje de casos | Intervalo estimado |
0 | 92,7 % | [89,7 % – 94,9 %] |
1 | 5,2 % | [3,4 % – 7,8 %] |
2 | 1,1 % | [0,5 % – 2,7 %] |
3 | 0,6 % | [0,2 % – 2,0 %] |
4 ó >4 | 0,4 % | [0,0 % – 1,6 %] |
En un 93 % de los 1490 casos, el sistema sólo reportó el material correcto como posible coincidencia.
En un 99,4 % de todos los casos, el sistema reportó el material correcto como la opción más probable o la única.
Resumen
Las figuras analíticas tradicionales para la medición de la performance cualitativa (SNR, SEL, SEN, LOD) no resultan adecuadas para caracterizar la identificación de materiales desconocidos. Como todo instrumento analítico, estos detectores cualitativos requieren una caracterización de desempeño. Es necesario definir reglas estrictas que hagan posible una operación robusta y repetible por parte de usuarios no especializados. Las curvas ROC y las características de precisión son un medio adecuado para medir la performance de una biblioteca espectral de descubrimiento. Probados rigurosamente en una situación de usuario final, los instrumentos portátiles Raman desarrollados por Ahura Scientific identifican con gran exactitud el material correcto o más probable. Estas herramientas de identificación de material por espectroscopía, empleadas por personal no especializado, han demostrado ser aceptables y muy eficaces para cumplir con los requisitos de la industria farmacéutica.
Referencias
- JA Swets et al., “Assessment of diagnostic technologies”, Science 205:753-759 (1979)
- TD Wickens, Elementary Signal Detection Theory, Oxford University Press 2001
- CD Brown, and HT Davis, “Receiver operating characteristic curves and related decision theory measures: a tutorial”, Chemometrics and Intelligent Laboratory Systems 80:24-38 (2006)
- D Lewis, “Representation quality in text classification: an introduction and experiment”, Proceedings of the Workshop on Speech and Natural Language, Morgan Kaufmann 1990; pp. 312-318
- GM Pesyna et al. “Probability based matching system using a large collection of reference mass spectra”, Analytical Chemistry 48:1362-1368 (1976)
- Proc. of SPIE, spie.org, Vol. 6378 637809,1-11