Ответить
  • CreatorCray Senior Member
    офлайн
    CreatorCray Senior Member

    1428

    23 года на сайте
    пользователь #2887

    Профиль
    Написать сообщение

    1428
    # 6 мая 2004 00:23

    Ввиду большого кол-ва поступающих вопросов типа: "не открывается велкомовская детализация за апрель" отвечаю подробно...

    Вверху страницы читали? Там написано про сюрприз для абонентов велком... Вот собственно и сюрприз: в детализациях велика начиная с апреля месяца покоцано все, на что может опираться Itemizer при декодировании детальки. Поэтому декодер настроить просто не получается.

    Есть подвижки в отношении поиска новых зацепок. Но подлость ситуации в том, что малейшее изменение текста, на который будет опираться декодер приведет к полной неработоспособности оного... Например добавление одного лишнего пробела в фразу уже приводит к сбою и неверному построению таблицы. Увы, но такова особенность построения кодовой таблицы имея кодированный и часть декодированного текста.

    Практически каждый месяц до сего печального инцидента в форме детализации постоянно что либо менялось. И как это ни странно, но очень часто "незначительно" затрагивались те строки, на которые опирался декодер. К примеру был перенесен почтовый индекс из одного места строки в другое. Добавлена запятая и проч.

    Если честно, то неохота поддаваться предположениям о том, что данные изменения вносятся специально, но... статистика вещь упрямая...

    В общем в связи со сдачей проекта на работе в плане итемизера намечаются некоторые сдвиги в положительную сторону... Но, то, что будет выпускаться на первых порах не будет иметь GUI и будет несколько непривычно и возможно не очень удобно...

    Ох... Где взять сил и время на реализацию задуманного :(

    "Вот что, ребята: телефона я вам не дам" (С)
  • Luga Senior MemberАвтор темы
    офлайн
    Luga Senior Member Автор темы

    8859

    23 года на сайте
    пользователь #3947

    Профиль
    Написать сообщение

    8859
    # 6 мая 2004 01:13

    UltraMax, включи галочку - неучитывать сгорание платежа

  • Ко_Лян Member
    офлайн
    Ко_Лян Member

    220

    22 года на сайте
    пользователь #9642

    Профиль
    Написать сообщение

    220
    # 6 мая 2004 07:57

    CreatorCray, на чём ты пишешь? У меня такое чувство, что регулярными выражениями ты не пользуешься, а это невероятно удобно и результат не будет зависить от лишнего пробела. Или есть какие особенности при работе с PDF? :shuffle:

  • CreatorCray Senior Member
    офлайн
    CreatorCray Senior Member

    1428

    23 года на сайте
    пользователь #2887

    Профиль
    Написать сообщение

    1428
    # 6 мая 2004 10:08

    Ко_Лян, не в этом дело...

    Представь - у тебя вся детализация грубо говоря зашифрована. Причем шифр каждый раз разный и заключается в замене кода символа по таблице. Таблица неизвестна.

    Задача: декодировать...

    Решаю я ее так: зная, что есть некоторые строки, не изменяющиеся от детальки к детальке я их нахожу по маске и восстанавливаю часть таблицы, необходимой для полноценного чтения детальки.

    Как регулярные выражения тут могут помочь - даже не знаю. Опиши поподробнее, плз.

    "Вот что, ребята: телефона я вам не дам" (С)
  • Ко_Лян Member
    офлайн
    Ко_Лян Member

    220

    22 года на сайте
    пользователь #9642

    Профиль
    Написать сообщение

    220
    # 6 мая 2004 17:09

    пока нашёл pdf2txt:

    http://www.verypdf.com/pdf2txt/pdf2txt.htm

    вечером вернусь и раскажу свою идею

  • whoa Senior Member
    офлайн
    whoa Senior Member

    2141

    23 года на сайте
    пользователь #5503

    Профиль
    Написать сообщение

    2141
    # 6 мая 2004 17:28

    CreatorCray, я думал, что тебе надо только определять чья это собственно деталька :shuffle: А так только через буфер обмена вводить можно :-)

    Stalker467, не только на счетах не умею. Даже на бумажке перемножу с трудом :lamer: про деление вообще молчу :roof:

  • badguy Паяльник & Отвертка TEAM
    офлайн
    badguy Паяльник & Отвертка TEAM

    23969

    23 года на сайте
    пользователь #6556

    Профиль
    Написать сообщение

    23969
    # 6 мая 2004 17:31
    CreatorCray:

    Ко_Лян, не в этом дело...

    Представь - у тебя вся детализация грубо говоря зашифрована. Причем шифр каждый раз разный и заключается в замене кода символа по таблице. Таблица неизвестна.

    Задача: декодировать...

    Хм, посмотрел в детальку... Появились мысли... В детализации в звонках в конце страницы такие надписи "Звонки. Страница X1 из Y" и "Page X2 of Y2". Как я понимаю, самое важное - достать правильно цифры... Получается, что набор от 1 до 3-4 вполне достать можно... Да и часть цифр... Или без предварительного разбора начала никак? Затем, можно в настройки сунуть номер, на который создана детализация... Хотя, с этим хуже...

    ЗЫЖ Интересно, но ведь ghostscript детальку умеет разбирать... надо его копнуть...

  • CreatorCray Senior Member
    офлайн
    CreatorCray Senior Member

    1428

    23 года на сайте
    пользователь #2887

    Профиль
    Написать сообщение

    1428
    # 6 мая 2004 19:04

    Ко_Лян, нашёл pdf2txt:

    :) Успехов... Ты почитай во что он тебе законвертит...

    #BadGuy#, поскольку все детальки примеров у меня дома а я покуда на работе то уверенно не скажу, но... НАДО ЧТОБЫ ШРИФТ КОТОРЫМ НАПИСАНА КЛЮЧЕВАЯ СТРОКА БЫЛ РАВЕН ШРИФТУ ОСНОВНОГО ТЕЛА ДЕТАЛЬКИ. Потому как для каждого шрифта код уникален. И кроме того Arial и Arial жирный - разные шрифты в понятии PDF.

    >> ghostscript детальку умеет разбирать

    В смысле разбирать? Текст вытянуть то он оттудова не может...

    "Вот что, ребята: телефона я вам не дам" (С)
  • Ко_Лян Member
    офлайн
    Ко_Лян Member

    220

    22 года на сайте
    пользователь #9642

    Профиль
    Написать сообщение

    220
    # 7 мая 2004 00:06

    Идея такая, вот первые две строки детализации звонков полученной из pdf-файла за март

    %VX%(XU%%Q$VVs(SsVW %%s%%sUQS%UWuSWWWVWUVX%%

    %UX%(XU%%Q$UVs(SsUV %%s%VsVU S%UWuQVQWSSVUuX%%

    В любой детализации самым популярным сочетанием будет, например, %(XU%%Q$, что соответствует "03.2004 ". Можно написать алгоритм, который найдёт это по двоеточиям и "200" (даже без регулярных выражений). А дальше можно опираться на это: найти после последнего двоеточия и возможного пробела ближайшую восьмёрку; отсчитать 11 цифр телефонного номера и посмотреть длительность звонка и т.д.

    Если хочешь более наглядно, могу завтра написать код на PHP (других языков не знаю).

    ЗЫ а как ты декодируешь эту абракадабру? Если сразу работать с цифрами, так будет ещё проще. Я уже придумал, как достоверно узнать все цифры, но может у тебя есть более простое решение. :)

    ЗЗЫ возможно сумбурно написал, просто спать хочется :)

  • CreatorCray Senior Member
    офлайн
    CreatorCray Senior Member

    1428

    23 года на сайте
    пользователь #2887

    Профиль
    Написать сообщение

    1428
    # 7 мая 2004 11:10

    Ко_Лян, бррр....

    а ты в курсе, что код для каждой детальки уникален и зависит от ее содержания? Кроме того, ладно, "2004" будет еще год во всех детальках, а вот с остальным дела похуже... И про какие двоеточия ты ведешь речь?

    Работать в плане декодирования нужно только с цифрами и, возможно знаками препинания (+ , : / ). Остальные строки можно находить по маске.

    Впрочем тут наметки уже вполне оформившиеся... И если все пойдет как надо - скоро будет pre-test-pre-alpha Itemizer 3. Но без GUI и прочих вкусностей... пока...

    Схема примерно будет такой: каждый парсер - отдельная DLL с открытым API которая парсит заданный файл и выдает данные в универсальном формате.

    "Вот что, ребята: телефона я вам не дам" (С)
  • Chromium Member
    офлайн
    Chromium Member

    118

    22 года на сайте
    пользователь #15691

    Профиль
    Написать сообщение

    118
    # 7 мая 2004 11:28

    В крайнем случае, я думаю написать гуи который будет консольник с нужными параметрами вызывать особой проблемой не станет... ИМХО

  • Ко_Лян Member
    офлайн
    Ко_Лян Member

    220

    22 года на сайте
    пользователь #9642

    Профиль
    Написать сообщение

    220
    # 7 мая 2004 11:39

    вопросов больше не имею

  • CreatorCray Senior Member
    офлайн
    CreatorCray Senior Member

    1428

    23 года на сайте
    пользователь #2887

    Профиль
    Написать сообщение

    1428
    # 7 мая 2004 12:04

    Chromium, пока не будет вылизано и хорошенько отлажено ядро будет просто консольник который будет сохранять распарсенное в понятном для Itemizer2 виде. Потом возьмусь за полноценный GUI.

    "Вот что, ребята: телефона я вам не дам" (С)
  • ПанаСлоник Senior Member
    офлайн
    ПанаСлоник Senior Member

    3437

    23 года на сайте
    пользователь #7179

    Профиль
    Написать сообщение

    3437
    # 7 мая 2004 19:04

    Ну, что очередная плохая новость. МТС закрыл HTML формал для детализаций, и новые PDF-ы Итемайзер не берет.

    Способ скормить ее Итемайзеру я нашел за 2 минуты... Только не понятно, кому и зачем нужно добавлять геморой нам... Ведь если я ее посмотреть в Акробате могу, значит данные высосать можно.

    Уважаемые программеры МТС, внушите, плиз, своему руководству, что если человек может увидить детальку на экране монитора, то значит он может ее загнать в Итемайзер. Просто пусть ваше руководство не страдает уйней и не заставляет вас делать всякую уйню

    Кстати к Велкому это тоже относится. Ибо их деталька у меня тем же способом за 30 сек перекачалась в Итемайзер. Просто-напросто у меня данный факт вызвал истерический смех, и отнюдь не добавил вам, как компании и руководству авторитета и уважения. Просто в очередной раз убедился, что, как и через что у вас работает.

    :vibra:

  • Stalker Panasonic Club
    офлайн
    Stalker Panasonic Club

    27316

    22 года на сайте
    пользователь #12655

    Профиль
    Написать сообщение

    27316
    # 7 мая 2004 23:41

    ПанаСлоник, это наверно очередное "прогрессивное" улучшение. :lol: А на МТСе теперь выдают в бумажном виде, чтобы видимо можно было развлечься сканированием и распозновыванием. :roof:

    [url=http://forum.onliner.by/viewtopic.php?t=814397]BELNETMON на onliner.by[/url]
  • CreatorCray Senior Member
    офлайн
    CreatorCray Senior Member

    1428

    23 года на сайте
    пользователь #2887

    Профиль
    Написать сообщение

    1428
    # 8 мая 2004 12:02

    ПанаСлоник, ну ка поподробнее...

    только что для эксперимента взял детальку в PDF. Все читается... Причем корректно...

    "Вот что, ребята: телефона я вам не дам" (С)
  • OWoD Senior Member
    офлайн
    OWoD Senior Member

    1346

    22 года на сайте
    пользователь #10623

    Профиль
    Написать сообщение

    1346
    # 8 мая 2004 13:03

    ПанаСлоник абсолютно прав - деталька-то открывается, но показывает полный бред: никаких звонков, одни смс, причем как входящие, так и исходящие. Билд 46

  • CreatorCray Senior Member
    офлайн
    CreatorCray Senior Member

    1428

    23 года на сайте
    пользователь #2887

    Профиль
    Написать сообщение

    1428
    # 8 мая 2004 13:44

    OWoD, гм. попробуйте еще раз взять - потому как у меня PDFка от 08.05.04 12:10 открывается 46-м отлично... Возможно это был их баг но временного характера

    "Вот что, ребята: телефона я вам не дам" (С)
  • olegg_72 Senior Member
    офлайн
    olegg_72 Senior Member

    851

    23 года на сайте
    пользователь #7676

    Профиль
    Написать сообщение

    851
    # 8 мая 2004 20:54

    CreatorCray,

    OWoD, гм. попробуйте еще раз взять - потому как у меня PDFка от 08.05.04 12:10 открывается 46-м отлично... Возможно это был их баг но временного характера

    вчера спецом после прочтения поста ПанаСлоник взял детальку, пока не перегнал в тхт, не брал ее Итемайзер билд 46

  • UltraMax Senior Member
    офлайн
    UltraMax Senior Member

    8084

    24 года на сайте
    пользователь #1258

    Профиль
    Написать сообщение

    8084
    # 8 мая 2004 22:06

    У меня PDF не открывается

    билд 46

    olegg_72, чем перегонял в текст?

    Можно поподробнее рассказать, кто и как засунул деталку от PDF в itemizer ?