ща вон гугл объектив. кусок кадра выделяешь какие-нить иероглифы и он переводит. )
причем учитывает контекст попавший в кадр )
файн ридер помню много ошибался и стоил дофига...
Здравствуйте, undo75, Вы писали:
U>ща вон гугл объектив. кусок кадра выделяешь какие-нить иероглифы и он переводит. ) U>причем учитывает контекст попавший в кадр ) U>файн ридер помню много ошибался и стоил дофига...
А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?
Pzz>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?
а гугл объектив единственный инструмент? не изучал тему...
Здравствуйте, Pzz, Вы писали:
U>>ща вон гугл объектив. кусок кадра выделяешь какие-нить иероглифы и он переводит. ) U>>причем учитывает контекст попавший в кадр ) U>>файн ридер помню много ошибался и стоил дофига...
Pzz>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?
Легко.
Только кто сейчас что-то сканирует сканером? Вообще откуда нынче такие процессы могут появиться?
Это же надо как людей ненавидеть, чтобы только таким способом коммуницировать.
Pzz>>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?
U>а гугл объектив единственный инструмент? не изучал тему...
Ну, у них всех API есть. Наверное, можно соорудить соответствующую приложуху.
Но мне кажется, это будет довольно дорогое удовольствие, в пересчёте на лист текста. Могу ошибаться, впрочем.
Здравствуйте, Dimonka, Вы писали:
Pzz>>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?
D>Легко. D>Только кто сейчас что-то сканирует сканером? Вообще откуда нынче такие процессы могут появиться? D>Это же надо как людей ненавидеть, чтобы только таким способом коммуницировать.
Pzz>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?
кстати. усложняю вопрос. а что там с лингво? у кого он ща установлен? ) ща тот же объектив в режиме реального времени этикетки с товаров переводит. причем подгоняет шрифты и стилистику...
Здравствуйте, undo75, Вы писали:
Pzz>>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю? U>кстати. усложняю вопрос. а что там с лингво? у кого он ща установлен? ) ща тот же объектив в режиме реального времени этикетки с товаров переводит. причем подгоняет шрифты и стилистику...
похоже все это устарело. Я тут перплексити скормил картинку, в ней был текст, так он и картинку распознал, и текст прочитал
Здравствуйте, wl., Вы писали:
wl.>похоже все это устарело. Я тут перплексити скормил картинку, в ней был текст, так он и картинку распознал, и текст прочитал
Простой гугл джеминай флеш (ещё старый какой-то) у меня не только читал текст, но и двигал курсором с пиксельной точностью (задача была поставить курсор на координатную ось в графике). В те времена chatgpt говорил (ну это где-то там, но я точно не вижу где), а джеминай просто практически с первой коррекции курсора попадал в нужное место. Видимо уже был мультимодальным.
Здравствуйте, Pzz, Вы писали:
Pzz>Ну, у них всех API есть. Наверное, можно соорудить соответствующую приложуху.
Pzz>Но мне кажется, это будет довольно дорогое удовольствие, в пересчёте на лист текста. Могу ошибаться, впрочем.
Пересчитывать надо и всякие монструозные приложения типа файнридера на лист текста, если тебе надо сканировать раз в.. (нечасто).
А ещё прикол с "чатами" в том, что нынче и сканировать-то особо не надо — сфоткал телефоном и получил в чате текст.
Здравствуйте, undo75, Вы писали:
U>файн ридер помню много ошибался и стоил дофига...
Жив и сейчас. 4 года назад фирма Abbyy стала чисто американской и закрыла офис в РФ. Однако тогда же откуда-то в РФ появилась Content.AI, торгующая ContenrReader-ом. И какая между ними связь?
Что касается качества распознавания, то сугубо личное мнение, никому не навязываю, что серьезные проблемы с развитием движка OCR были уже примерно в 2014-м году, а звоночки начались еще лет на пять раньше. Впрочем, он хотя, на мой взгляд, не развивается, но остается на хорошем уровне.
P.S. В последних продуктах они стали использовать нейросети, не знаю насколько успешно, не пробовал
Pzz>Ну, у них всех API есть. Наверное, можно соорудить соответствующую приложуху.
Pzz>Но мне кажется, это будет довольно дорогое удовольствие, в пересчёте на лист текста. Могу ошибаться, впрочем.
Емнип, на какой-то из работ у нас был робот, которому по почте отсылаешь скан, а он в ответ PDF-ку присылает. Так вот там по моему за каждый скан надо было отстёгивать конторе, чей софт использовался
Здравствуйте, syrompe, Вы писали:
S>Ну было вроде даже тут на форуме — Abby уволила почти всех разрабов, оставив пару продажников и поддержку небольшую.
Они вроде сбежали в заграницы, потому и разогнали местный офис
Был, кстати, на шароварной тусовке, которую в местном шароваре разделе один товарищ продавал. Довольно бесполезное, кстати, мероприятие, для шароварщика, имхо, но не суть. Там поболтал с какими-то людьми, на эту тему — я тогда чот заинтересовался темой распознавания, и даже что-то сделал немножко. Так вот эти люди пилили вроде как свой OCR, вроде на каком-то опен сорц движке, и вроде как-то с этого жили. Вот таким товарищам точно не сладко пришлось.