Доброго времени суток всем автомобилистам и не только.
Так или иначе в различных спорах и обсуждениях часто всплывает вопрос - какие марки автомобилей чаще попадают в аварии. Иначе как троллингом такие обсуждения не назовёшь, но тем не менее. И, казалось бы, вопроса быть не должно - официальная статистика существует. Но на эту статистику смотреть не хотят, мол посмотрите в ветку аварии на онлайнере, она объективнее. Что-то в этом действительно есть - туда попадают только самые резонансные аварии (что тоже, конечно, подлежит обсуждению, но положим, что это так). Да вот только в самом этом разделе не очень-то понятно, сколько же статей и с какими авто опубликовано. Даже шутки на эту тему часто бывают - сегодня не день рено, не день бмв, не день жигулей итд итп... А вот общую картину представить сложно.
Вот и решил я не пожалеть несколько часов свободного времени и посчитать более менее точно статистику по этому разделу. Ещё раз оговорюсь - речь идёт о блоге авто\аварии, а не о ветке аварии на форуме. Посчитать что-либо по ветке на форуме, мне кажется, не представляется возможным в принципе, т.к. на некоторые аварии там один пост, а на некоторые и 10 и 20 (в блоге такое тоже есть, но в гораздо меньшей степени).
Методика
При проведении таких подсчётов, всегда имеет место следующая дилемма: выполнить расчёт полностью автоматически и оставить при этом некий процент ошибки, либо выполнить большУю часть работы вручную, но исключить ошибку по-максимуму. Первоначально я хотел сделать всё слишком точно и круто:
1) Слить все статьи.
2) Автоматически распознать транспортные средства причастные к статье (не обязательно авто, это может быть и велосипед и пешеход)
3) Сделать простенький интерфейс, который позволяется быстро пробежаться по всем статьям и отметить кто был виновником, а кто пострадавшим.
Технически никаких проблем нет и все эти пункты полностью реализуемые. Но на практике, решить третий пункт не получается - слишком много статей, где не очевидна вина одного из участников (особенно обзорных). Таким образом я ограничился первыми двумя пунктами и реализовал следующее.
Во-первых был экспортирован полный список статей из раздела http://auto.onliner.by/category/accidents (в районе 2150 статей; результаты привожу здесь, потому, надеюсь, что претензий ко мне по поводу краже материалов не будет ). А именно интересовали заголовки и текст всех статей.
Во-вторых был составлен список всех марок авто (экспортировал с http://catalog.aw.by/, первый под руки попался). Разумеется в последствии этот список был дополнен некоторыми пунктами (такими как такси, скутер, велосипед...), а также алиасами (синонимами) некоторых марок, для повышения процента распознавания (например ваз, lada, ока). Полный список используемых марок в спойлере.
Ну и наконец в третьих был выполнен проход по всем текстам и заголовкам статей с целью получения связей "статья"<->"причастные транспортные средства". После небольшой заточки алгоритма распознавания и списка транспортных средcтв процент распознанных статей превысил 97 и оставшиеся статьи действительно не содержали какой-либо конкретной информации. Т.е. мы получили данные, какое транспортное средство сколько раз упоминалось в блоге "аварии" (в скольки статьях). Полные данные по статьям (какие марки в какой статье) в спойлере.
Результаты
Выводы
Какие либо выводы делать сложно - не очевидна логика, согласно которой аварии попадают на онлайнер, но, лично мой вывод, не изменился после получения данных. Марка машины - практически не влияет на то, как часто она упоминается в авариях, слишком большое количество марок имеет практически одинаковое количество упоминаний. Ожидаемо выбиваются фуры и пешеходы - эти аварии как правило с тяжкими последствиями Также довольно ожидаем серьезный отрыв фольксвагенов, что всего-лишь говорит о том, что их количество на дорогах огромно.