• Koresh Onliner Auto ClubАвтор темы
    офлайн
    Koresh Onliner Auto Club Автор темы

    4932

    19 лет на сайте
    пользователь #41440

    Профиль
    Написать сообщение

    4932
    # 25 марта 2012 00:20

    Доброго времени суток всем автомобилистам и не только.
    Так или иначе в различных спорах и обсуждениях часто всплывает вопрос - какие марки автомобилей чаще попадают в аварии. Иначе как троллингом такие обсуждения не назовёшь, но тем не менее. И, казалось бы, вопроса быть не должно - официальная статистика существует. Но на эту статистику смотреть не хотят, мол посмотрите в ветку аварии на онлайнере, она объективнее. Что-то в этом действительно есть - туда попадают только самые резонансные аварии (что тоже, конечно, подлежит обсуждению, но положим, что это так). Да вот только в самом этом разделе не очень-то понятно, сколько же статей и с какими авто опубликовано. Даже шутки на эту тему часто бывают - сегодня не день рено, не день бмв, не день жигулей итд итп... А вот общую картину представить сложно.
    Вот и решил я не пожалеть несколько часов свободного времени и посчитать более менее точно статистику по этому разделу. Ещё раз оговорюсь - речь идёт о блоге авто\аварии, а не о ветке аварии на форуме. Посчитать что-либо по ветке на форуме, мне кажется, не представляется возможным в принципе, т.к. на некоторые аварии там один пост, а на некоторые и 10 и 20 (в блоге такое тоже есть, но в гораздо меньшей степени).

    Методика
    При проведении таких подсчётов, всегда имеет место следующая дилемма: выполнить расчёт полностью автоматически и оставить при этом некий процент ошибки, либо выполнить большУю часть работы вручную, но исключить ошибку по-максимуму. Первоначально я хотел сделать всё слишком точно и круто:
    1) Слить все статьи.
    2) Автоматически распознать транспортные средства причастные к статье (не обязательно авто, это может быть и велосипед и пешеход)
    3) Сделать простенький интерфейс, который позволяется быстро пробежаться по всем статьям и отметить кто был виновником, а кто пострадавшим.
    Технически никаких проблем нет и все эти пункты полностью реализуемые. Но на практике, решить третий пункт не получается - слишком много статей, где не очевидна вина одного из участников (особенно обзорных). Таким образом я ограничился первыми двумя пунктами и реализовал следующее.

    Во-первых был экспортирован полный список статей из раздела http://auto.onliner.by/category/accidents (в районе 2150 статей; результаты привожу здесь, потому, надеюсь, что претензий ко мне по поводу краже материалов не будет :) ). А именно интересовали заголовки и текст всех статей.

    Во-вторых был составлен список всех марок авто (экспортировал с http://catalog.aw.by/, первый под руки попался). Разумеется в последствии этот список был дополнен некоторыми пунктами (такими как такси, скутер, велосипед...), а также алиасами (синонимами) некоторых марок, для повышения процента распознавания (например ваз, lada, ока). Полный список используемых марок в спойлере.

    Ну и наконец в третьих был выполнен проход по всем текстам и заголовкам статей с целью получения связей "статья"<->"причастные транспортные средства". После небольшой заточки алгоритма распознавания и списка транспортных средcтв процент распознанных статей превысил 97 и оставшиеся статьи действительно не содержали какой-либо конкретной информации. Т.е. мы получили данные, какое транспортное средство сколько раз упоминалось в блоге "аварии" (в скольки статьях). Полные данные по статьям (какие марки в какой статье) в спойлере.

    Результаты

    Выводы
    Какие либо выводы делать сложно - не очевидна логика, согласно которой аварии попадают на онлайнер, но, лично мой вывод, не изменился после получения данных. Марка машины - практически не влияет на то, как часто она упоминается в авариях, слишком большое количество марок имеет практически одинаковое количество упоминаний. Ожидаемо выбиваются фуры и пешеходы - эти аварии как правило с тяжкими последствиями :( Также довольно ожидаем серьезный отрыв фольксвагенов, что всего-лишь говорит о том, что их количество на дорогах огромно.

  • PITER_PENN Onliner Auto Club
    офлайн
    PITER_PENN Onliner Auto Club

    23235

    16 лет на сайте
    пользователь #113932

    Профиль
    Написать сообщение

    23235
    # 25 марта 2012 00:25

    И что делать будем с этими выводами?

  • psysh1t Senior Member
    офлайн
    psysh1t Senior Member

    576

    13 лет на сайте
    пользователь #347635

    Профиль
    Написать сообщение

    576
    # 25 марта 2012 00:32
    Koresh:

    Также довольно ожидаем серьезный отрыв фольксвагенов, что всего-лишь говорит о том, что их количество на дорогах огромно.

    Истина. Нужно считать % от всего кол-ва авто данной марке в стране.
    А вообще: статистика - уж очень обобщённое понятие.

    wtf?! O_o