Мне больше всего понравилось, как легко это было, просто используя код Python, мы смогли извлечь текст из файлов PDF с высокой точностью (даже когда на некоторых страницах есть ошибки).
Это также позволило нам упростить добавление метаданных о каждом извлеченном файле.
Пока нет ничего плохого, что мне не понравилось, но, возможно, больше функциональности было бы лучше, чем то, что они предоставляют на данный момент. Мы решили, какие документы должны или не должны быть отсканированы, потому…