Project

General

Profile

Bug #1496

Ошибка при импорте pdf документа

Added by Alexey Demakov about 8 years ago. Updated about 8 years ago.

Status:
Closed
Priority:
Normal
Category:
-
Target version:
Start date:
07/11/2011
Due date:
% Done:

100%

Estimated time:
Detected in build:
0.12.90
Platform:
Published in build:
0.12.94

Description

Результат импорта документа
"\\NORD\work\Vimpelcom\Новые проекты\ComversOne-SAPI\COMONE_3_6_APIs-For-VIP-3.6.pdf"
не открывается ни в редакторе разметки, ни в браузере с диагностикой:

XML Parsing Error: not well-formed
Location: file:///C:/Tools/eclipse/requality-3.7/workspace/t/root/Documents/COMONE_3_6_APIs-For-VIP-3.6.xhtml_resources/COMONE_3_6_APIs-For-VIP-3.6.xhtml
Line Number 118, Column 6:
offer￿s parent bundle.
-----^

На этом месте стоит апостроф типа запятой сверху, код 0x92


Related issues

Related to Requality - Bug #1498: Не удаляется non well-formed документClosed07/11/2011

Actions

Associated revisions

Revision 7f329fab (diff)
Added by Vladimir Fedotov about 8 years ago

Fixes #1496

git-svn-id: https://forge.ispras.ru/svn/reqdb/trunk/requality@2099 f558eac1-05b1-4da7-9ed5-5050e8a619d6

History

#1

Updated by Alexey Demakov about 8 years ago

Похоже, что есть проблемы с импортом русских букв в документах любых форматов - doc, docx, pdf. Возможно, проблема касается только windows.

#2

Updated by Vladimir Fedotov about 8 years ago

  • Status changed from New to Resolved
  • % Done changed from 0 to 100

Applied in changeset r2099.

#3

Updated by Vladimir Fedotov about 8 years ago

Данный фикс спасет от убитого документа, но не спасет от нечитаемого русского текста. Т.к. импорт pdf полностью полагается на pdfBox, баги с кодировками также относятся к нему: https://issues.apache.org/jira/browse/PDFBOX-398

#4

Updated by Alexey Demakov about 8 years ago

  • Assignee changed from Vladimir Fedotov to Alexey Demakov

OutputWriter создавался как FileWriter без указания кодировки (то есть, с системной кодировкой по умолчанию). Вместо этого надо использовать OutputStreamWriter( FileOutputStream, "UTF-8" ).

Костыли с decodeUtf8 убраны.

#5

Updated by Alexey Demakov about 8 years ago

  • Target version set to 0.12
#6

Updated by Alexey Demakov about 8 years ago

  • Published in build set to 0.12.94
#7

Updated by Alexey Demakov about 8 years ago

  • Status changed from Resolved to Closed

Also available in: Atom PDF