Димон
Новичок
Всем хай.
Нужна помощь в опеределении кодировки строки. Строка выдирается из PDF и сохраняется в UTF-8. Исходная кодировка ISO8859-5 (это я опеределил на http://2cyr.com/decode/?lang=ru).
Выдранная строка: áÞåàÐÝØÒ ÜÝÞÓÞ ßàØÛÞÖÕÝØÙ Java, ÜÞÖÝÞ ×ÐÝïâì Òáî ÔÞáâãßÝãî ßÐÜïâì
"Перевод": сохранив много приложений Java, можно занять всю доступную память
Т.е. нажна какая-то тулза, которая эвристически или с помощью маппинга оперелить кодировку.
Юзал следующие либы. Они все естественно отдают UTF-8. Т.е. читают либо код символа, либо мета-данные из файла.
1) enca (aptitude install enca)
2) chardet (aptitude install chardet)
3) uchardet (aptitude search uchardet)
4) tika.apache.org/
5) npmjs.com/package/detect-encoding
6) libencode-detect-perl
7) www-archive.mozilla.org/projects/intl/UniversalCharsetDetection.html
8) jchardet.sourceforge.net/
9) grepcode.com/snapshot/repo1.maven.org/maven2/com.googlecode.juniversalchardet/juniversalchardet/1.0.3/
10) lxr.mozilla.org/seamonkey/source/extensions/universalchardet/src/
11) userguide.icu-project.org/
Заранее благодарю.
Нужна помощь в опеределении кодировки строки. Строка выдирается из PDF и сохраняется в UTF-8. Исходная кодировка ISO8859-5 (это я опеределил на http://2cyr.com/decode/?lang=ru).
Выдранная строка: áÞåàÐÝØÒ ÜÝÞÓÞ ßàØÛÞÖÕÝØÙ Java, ÜÞÖÝÞ ×ÐÝïâì Òáî ÔÞáâãßÝãî ßÐÜïâì
"Перевод": сохранив много приложений Java, можно занять всю доступную память
Т.е. нажна какая-то тулза, которая эвристически или с помощью маппинга оперелить кодировку.
Юзал следующие либы. Они все естественно отдают UTF-8. Т.е. читают либо код символа, либо мета-данные из файла.
1) enca (aptitude install enca)
2) chardet (aptitude install chardet)
3) uchardet (aptitude search uchardet)
4) tika.apache.org/
5) npmjs.com/package/detect-encoding
6) libencode-detect-perl
7) www-archive.mozilla.org/projects/intl/UniversalCharsetDetection.html
8) jchardet.sourceforge.net/
9) grepcode.com/snapshot/repo1.maven.org/maven2/com.googlecode.juniversalchardet/juniversalchardet/1.0.3/
10) lxr.mozilla.org/seamonkey/source/extensions/universalchardet/src/
11) userguide.icu-project.org/
Заранее благодарю.