Development Of Mod_Anticrawl: An Anti Crawler Add-On Module For Apache Web Servers

Development Of Mod_Anticrawl: An Anti Crawler Add-On Module For Apache Web Servers

Advisor: 

M. Ufuk Caglayan

Assigned to: 

Oguzhan Topgul

Type: 

Year: 

2012

Status: 

Summary:

A web crawler can be defined as automated software that extracts website maps by visiting all the links in a website. Website map extraction process can be used to build a basis for a web attack. Hence, crawling plays an important role in automated attacks. The most automated vulnerability scanners perform crawling before vulnerability tests in order to determine overall map and attack surface. Besides automated scanning features, crawlers can also be used for content theft. By utilising a crawler, one can copy all the pages and content of a website by visiting all pages in an orderly manner.Anti-crawling can be defined as a set of mechanisms that prevents websites from being crawled by automated crawlers. In this thesis, a set of anti-crawling mechanisms are combined into an Apache web server module called mod_antiCrawl. mod_antiCrawl is developed in C language by using Apache API and it has crawler detection and inhibition capabilities to protect servers from malicious crawlers. The performance of mod_antiCrawl has also been studied and our results show that website map discovery by crawlers decreases at least 70% after mod_antiCrawl is activated. This ratio increases to 90% by enabling different functionalities of the module.

Özet:

İngilizcede crawler diye adlandırılan İnternet Robotu yazılımları bir web sayfasındaki tüm bağlantıları gezerek bu sitenin haritasını çıkartan otomatikleştirilmiş yazılımlardır. Bir web sitesinin haritasının çıkartılması, o siteye yapılacak bir saldırı için temel teşkil edeceğinden otomatikleştirilmiş saldırılar için büyük önem taşımaktadır. Bu yüzdendir ki otomatik web açıklık tarayıcılarının hepsi, taramaya başlamadan önce mutlaka sitenin haritasını çıkartmak için bağlantı keşfi işlemi (crawling) gerçekleştirir. İnternet robotları, otomatik web açıklık taramalarına temel olmak dışında, içerik hırsızlığı için de sıkça kullanılmaktadır. Otomatikleştirilmiş bir şekilde bir sitenin tüm içeriğinin sayfa sayfa gezilerek başka bir web sitesine kopyalanması konusunda internet robotları büyük rol oynamaktadır.Bu tezde web sunucular için internet robotlarına karşı bağlantı keşfi önleyici yöntemleri içeren internet robotu engelleyici modülü geliştirilmiştir. mod_antiCrawl C dili ve Apache API'si kullanılarak yazılmış bir Apache modülüdür. mod_antiCrawl'ın internet robotu yakalama ve engelleme yetenekleri sayesinde sunucular, zararlı robot yazılımlardan korunmaktadır. Yapılan performans değerlendirme ölçümlerinde, modül aktif konuma getirildikten sonra internet robotlarının elde edebildikleri bulgu sayısında en az %70'lik bir düşüş sağlandığı görülmüştür. Bu oran mod_antiCrawl içerisindeki internet robotı karakteristiğine daha uygun fonskiyonların da yardımıyla %90 seviyesine çıkabilmektedir.

Bize Ulaşın

Bilgisayar Mühendisliği Bölümü, Boğaziçi Üniversitesi,
34342 Bebek, İstanbul, Türkiye

  • Telefon: +90 212 359 45 23/24
  • Faks: +90 212 2872461
 

Bizi takip edin

Sosyal Medya hesaplarımızı izleyerek bölümdeki gelişmeleri takip edebilirsiniz