Re: а файн ридер как ща поживает? - О жизни

ща вон гугл объектив. кусок кадра выделяешь какие-нить иероглифы и он переводит. )
причем учитывает контекст попавший в кадр )
файн ридер помню много ошибался и стоил дофига...

Здравствуйте, undo75, Вы писали:

U>ща вон гугл объектив. кусок кадра выделяешь какие-нить иероглифы и он переводит. )
U>причем учитывает контекст попавший в кадр )
U>файн ридер помню много ошибался и стоил дофига...

А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?

Pzz>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?

а гугл объектив единственный инструмент? не изучал тему...

Здравствуйте, Pzz, Вы писали:

U>>ща вон гугл объектив. кусок кадра выделяешь какие-нить иероглифы и он переводит. )
U>>причем учитывает контекст попавший в кадр )
U>>файн ридер помню много ошибался и стоил дофига...

Pzz>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?

Легко.
Только кто сейчас что-то сканирует сканером? Вообще откуда нынче такие процессы могут появиться?
Это же надо как людей ненавидеть, чтобы только таким способом коммуницировать.

Здравствуйте, undo75, Вы писали:

Pzz>>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?

U>а гугл объектив единственный инструмент? не изучал тему...

Ну, у них всех API есть. Наверное, можно соорудить соответствующую приложуху.

Но мне кажется, это будет довольно дорогое удовольствие, в пересчёте на лист текста. Могу ошибаться, впрочем.

Здравствуйте, Dimonka, Вы писали:

Pzz>>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?

D>Легко.
D>Только кто сейчас что-то сканирует сканером? Вообще откуда нынче такие процессы могут появиться?
D>Это же надо как людей ненавидеть, чтобы только таким способом коммуницировать.

Те, у кого официальный документооборот.

Pzz>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?

кстати. усложняю вопрос. а что там с лингво? у кого он ща установлен? ) ща тот же объектив в режиме реального времени этикетки с товаров переводит. причем подгоняет шрифты и стилистику...

Здравствуйте, undo75, Вы писали:

Pzz>>А можно гугл встроить в офисный пайплан, чтобы вот сканируешь документ на сканере, он автоматически OCR-ится, распознанный текст вставляется вместе с изображением в PDF-ку (с правильными аннотациями, как текст на изображение ложится, чтобы выделение нормально работало) и всё это отдаётся пользователю?
U>кстати. усложняю вопрос. а что там с лингво? у кого он ща установлен? ) ща тот же объектив в режиме реального времени этикетки с товаров переводит. причем подгоняет шрифты и стилистику...

похоже все это устарело. Я тут перплексити скормил картинку, в ней был текст, так он и картинку распознал, и текст прочитал

Здравствуйте, wl., Вы писали:

wl.>похоже все это устарело. Я тут перплексити скормил картинку, в ней был текст, так он и картинку распознал, и текст прочитал

Простой гугл джеминай флеш (ещё старый какой-то) у меня не только читал текст, но и двигал курсором с пиксельной точностью (задача была поставить курсор на координатную ось в графике). В те времена chatgpt говорил (ну это где-то там, но я точно не вижу где), а джеминай просто практически с первой коррекции курсора попадал в нужное место. Видимо уже был мультимодальным.

Здравствуйте, Pzz, Вы писали:

Pzz>Ну, у них всех API есть. Наверное, можно соорудить соответствующую приложуху.

Pzz>Но мне кажется, это будет довольно дорогое удовольствие, в пересчёте на лист текста. Могу ошибаться, впрочем.

Пересчитывать надо и всякие монструозные приложения типа файнридера на лист текста, если тебе надо сканировать раз в.. (нечасто).

А ещё прикол с "чатами" в том, что нынче и сканировать-то особо не надо — сфоткал телефоном и получил в чате текст.

Ну было вроде даже тут на форуме — Abby уволила почти всех разрабов, оставив пару продажников и поддержку небольшую.

Здравствуйте, undo75, Вы писали:

U>файн ридер помню много ошибался и стоил дофига...

Жив и сейчас. 4 года назад фирма Abbyy стала чисто американской и закрыла офис в РФ. Однако тогда же откуда-то в РФ появилась Content.AI, торгующая ContenrReader-ом. И какая между ними связь?

Что касается качества распознавания, то сугубо личное мнение, никому не навязываю, что серьезные проблемы с развитием движка OCR были уже примерно в 2014-м году, а звоночки начались еще лет на пять раньше. Впрочем, он хотя, на мой взгляд, не развивается, но остается на хорошем уровне.

P.S. В последних продуктах они стали использовать нейросети, не знаю насколько успешно, не пробовал

Здравствуйте, undo75, Вы писали:

Сдох наверное

Здравствуйте, Pzz, Вы писали:

Pzz>Ну, у них всех API есть. Наверное, можно соорудить соответствующую приложуху.

Pzz>Но мне кажется, это будет довольно дорогое удовольствие, в пересчёте на лист текста. Могу ошибаться, впрочем.

Емнип, на какой-то из работ у нас был робот, которому по почте отсылаешь скан, а он в ответ PDF-ку присылает. Так вот там по моему за каждый скан надо было отстёгивать конторе, чей софт использовался

Здравствуйте, syrompe, Вы писали:

S>Ну было вроде даже тут на форуме — Abby уволила почти всех разрабов, оставив пару продажников и поддержку небольшую.

Они вроде сбежали в заграницы, потому и разогнали местный офис

Здравствуйте, undo75, Вы писали:

Был, кстати, на шароварной тусовке, которую в местном шароваре разделе один товарищ продавал. Довольно бесполезное, кстати, мероприятие, для шароварщика, имхо, но не суть. Там поболтал с какими-то людьми, на эту тему — я тогда чот заинтересовался темой распознавания, и даже что-то сделал немножко. Так вот эти люди пилили вроде как свой OCR, вроде на каком-то опен сорц движке, и вроде как-то с этого жили. Вот таким товарищам точно не сладко пришлось.

	От:	undo75
	Дата:	22.04.26 12:06
	Оценка:

От:	Pzz	https://github.com/alexpevzner
Дата:	22.04.26 12:34
Оценка:	+1

	От:	undo75
	Дата:	22.04.26 12:40
	Оценка:

	От:	Dimonka
	Дата:	22.04.26 12:41
	Оценка:	-1

От:	Pzz	https://github.com/alexpevzner
Дата:	22.04.26 12:42
Оценка:

От:	Marty	https://www.youtube.com/channel/UChp5PpQ6T4-93HbNF-8vSYg
Дата:	25.04.26 14:05
Оценка:

	От:	Michael7
	Дата:	23.04.26 00:27
	Оценка: