Текущее время: Пт, мар 29 2024, 02:10

Часовой пояс: UTC + 3 часа


Правила форума


ВНИМАНИЕ!

Вопросы по SAP Query и Quick View - сюда



Начать новую тему Ответить на тему  [ Сообщений: 20 ]  На страницу Пред.  1, 2
Автор Сообщение
 Заголовок сообщения: Re: Выкладываю парсер PDF (класс для чтения файла PDF напрямую)
СообщениеДобавлено: Вт, сен 17 2019, 10:43 
Почетный гуру
Почетный гуру

Зарегистрирован:
Пт, дек 04 2009, 12:52
Сообщения: 219
raaleksandr написал:
Выложил как был на проекте, могут быть внешние ссылки. Если что присылайте ошибки, постараюсь всё посмотреть
Большое спасибо! В этом виде код что-то распарсил, уже хорошо... но "кракозябры" вместо русских букв. Надо экспериментировать с кодировкой. Но с этим буду разбираться позже, т.к. в моей задаче сейчас уже стоит вопрос о том, чтобы вместо PDF грузить RTF. Ещё раз спасибо!


Принять этот ответ
Вернуться к началу
 Профиль Отправить email  
 
 Заголовок сообщения: Re: Выкладываю парсер PDF (класс для чтения файла PDF напрямую)
СообщениеДобавлено: Ср, окт 30 2019, 18:50 
Почетный гуру
Почетный гуру

Зарегистрирован:
Пт, дек 04 2009, 12:52
Сообщения: 219
raaleksandr написал:
Акт. код. стр. сервера приложений 1500
Код. страница фронтэнда 1504
помогло
А вот мне, к сожалению, не помогло. У меня PDF с CMap (beginbfrange ... endbfrange).

В PDF есть строка 'Отметки банка'
В в исходном виде эта строка выглядит так <0248026C0266025F026C026402620003025B025A02670264025A> Tj
В преобразованном (через CMap) виде имеем такой HEX: 041E0442043C04350442043A04382004310430043D043A0430

Теперь этот Xstring надо бы конвертировать в STRING, и дело с концом... но не тут-то было.

Перебрал все известные кодировки, вижу что-то типа такого '##B#<#5#B#:#8 #1#0#=#:#0'
Но если откинуть первый байт (04), оставить только 1E0442043C04350442043A04382004310430043D043A0430
то:
кодировка utf-16le дает такой результат: Отметк‸㄄〄㴄㨄
кодировка utf-16be дает такой результат: Ḅ䈄㰄㔄䈄㨄㠠банка

То есть пробел портит либо первую, либо вторую половину текста.
Другие кодировки результата вообще не дают.

Ну никак не могу это преодолеть. Какие ещё манипуляции требуется сделать? В какую сторону копать? Подскажите, пожалуйста!


Принять этот ответ
Вернуться к началу
 Профиль Отправить email  
 
 Заголовок сообщения: Re: Выкладываю парсер PDF (класс для чтения файла PDF напрямую)
СообщениеДобавлено: Пт, ноя 01 2019, 18:29 
Директор
Директор
Аватара пользователя

Зарегистрирован:
Ср, апр 12 2006, 12:43
Сообщения: 863
Откуда: СССР
Пол: Мужской
Бородин Игорь написал(а):
Какие ещё манипуляции требуется сделать? В какую сторону копать? Подскажите, пожалуйста!

Добрый день!
Проверить наличие и соответствие текущей кодировке BOM пробовали?
С уважением, hoar

_________________
Никого не трогаю, примусы починяю.


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Выкладываю парсер PDF (класс для чтения файла PDF напрямую)
СообщениеДобавлено: Вт, дек 20 2022, 15:52 
Младший специалист
Младший специалист

Зарегистрирован:
Вт, авг 05 2008, 19:46
Сообщения: 96
Откуда: С Урала
День добрый, коллеги.
Попробовал применить парсер для практических нужд - столкнулся с проблемой: не выводятся значения в текстовых элементах, где присутствуют символы из очень не дружественных кодировок типа Š (достаточно одного подобного символа - в ячейке пусто). С английским и немецким вариантом все нормально, а вот с такими символами пусто, хотя позиционирование отрабатывает корректно. После считывания данных в mt_filelines в таких позициях данные вида
Code:
[<0064001C>6<0012002C>-3<0045002F>4<0012003C0006>-4<00030061>-3<0057001C>4<0012002F0026002F003C0006>-4<0012002F0004>] TJ
в текст не преобразовывается
вместо правильного на немецком.
Code:
[(TE)6(CH)-3(NI)4(S)-3(CH)-3(E)4( S)-3(PE)4(ZIFIKATI)3(O)-3(N)] TJ
Это одно и то же поле на разных языках.
Может кто подскажет что проверить? Сам pdf сгенерирован из Excel.


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Выкладываю парсер PDF (класс для чтения файла PDF напрямую)
СообщениеДобавлено: Пн, фев 19 2024, 16:23 
Младший специалист
Младший специалист

Зарегистрирован:
Вт, авг 05 2008, 19:46
Сообщения: 96
Откуда: С Урала
Немного оживлю тему, все таки приходится разбираться с темой такого отображения символов - сильно надо
Цитата:
[<0064001C>6<0012002C>-3<0045002F>4<0012003C0006>-4<00030061>-3<0057001C>4<0012002F0026002F003C0006>-4<0012002F0004>] TJ

так как в новой версии файлов весь текст так кодируется - единственное что нашел, это в старой версии между тэгами beginbfrange/endbfrange и beginbfchar/endbfchar лежат перекодировочные значения ADOBE и Номер в Юникоде
Code:
<0006> <00C1>
это пример типа 0006 соответствует 00C1 в Юникоде вроде как Á . Я собрал такой справочник запустил по нему расшифровку, вроде работает, но вопрос до какого времени? Если шрифт поменяется или еще какие то изменения


Принять этот ответ
Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 20 ]  На страницу Пред.  1, 2

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: Yandex [Bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB