Estoy intentando automatizar la extracción de datos de la tabla de la hoja de datos. Todavía es un trabajo en progreso, pero tengo buenas esperanzas, algunas palabras clave "características, mín, máx, símbolo, condiciones de prueba, ..." hacen que sean fáciles de detectar. Solo necesito más tiempo para trabajar en ello.
Desde la depuración de la línea de comandos que estoy usando, estoy empezando a preguntarme qué tipo de formato de salida útil debería usar. Creo que XML será una buena idea, y me gustaría saber si ya existe un estándar que podría usar.
nota: estoy usando pdf2html (opción xml) y luego python para procesar el archivo. También estoy usando ODSlib para visualizar el reconocimiento de la tabla.