数据挖掘|IP地址定位技术之基础数据采集

数据挖掘|IP地址定位技术之基础数据采集

文章图片


IP地理位置定位技术 , 包含基础数据采集、硬件系统搭建、应用场景划分和定位系统研发四项关键技术 。

基础数据采集为IP地理位置定位技术的研究提供基础数据支撑 , 是IP地址定位的基础性工作和关键技术 。 首先 , 按照不同的数据采集规则 , 针对不同数据源的数据格式 , 研究并实现一套自动化的智能化的数据采集技术;其次 , 对采集到的数据进行筛选、清洗和挖掘 , 形成基础数据库 , 为系统提供基础数据支撑 。

【数据挖掘|IP地址定位技术之基础数据采集】基础数据采集的研究内容包含确定数据源(如Whois开放数据等)、分析数据采集的方法(如网络爬虫、数据交换、地面采集等)、各种数据采集方法的可行性分析及实现方案、确定采集数据的属性值(如地理位置、经纬度、所属运营商等)、数据的清洗办法、数据的正确性验证步骤、基础数据的迭代更新流程等 。
为了保证数据质量和数据丰富性 , 针对不同的数据源 , 系统通过三种方式获取基础数据 , 分别是数据挖掘、数据采购、地面采集 。 数据挖掘是指通过网络爬虫 , 从特定网页如APNIC网站、BGP网站、地图类网站中获取IP及地理位置信息;数据采购是指从可以提供基础数据的公司进行数据采购 , 例如某本地服务网站、某网络打车网站等;地面采集是指利用自主研发的数据采集软件 , 进行人工实地数据采集 。

数据采集技术已存在多个开源的第三方框架 , 例如Scrapy、Nutch、Crawler4j、WebMagic等;数据挖掘算法 , 例如支持向量机SVM、K-Means等 , 都已得到广泛应用 。