欢迎光临
我们一直在努力
您的位置:首页>无人机 >

谷歌开源Robot.txt帮助标准化机器人排除协议

开源已成为一种流行的做法。公司已经意识到他们从开源项目获得的反馈的重要性,并通过这样做获得了改进。无论公司规模有多大,开源项目都能带来深入人心的改进。

谷歌在标准化机器人排除协议(REP)方面采取了强硬立场。现在,作为这些努力的一部分,这家搜索引擎巨头已开放其Google.txt Parser。

需要REP

简而言之,REP是网站与网络机器人进行通信的标准。它告诉他们关于他们应该和不应该扫描和处理的Web部分。但是,尽管有这些标准,并非所有网络机器人都遵循这些标准。一些网络机器人会扫描网站中有人建议不要扫描的部分。如果robots.txt通过任何指令与任何语句发生冲突,robot.txt将禁止它。

REP只是25年来事实上的标准。这对此产生了负面影响,因为:

网站管理员角落案件的不确定性。

它还为爬虫和工具开发人员带来了不确定性。

REP说,如果是多个域,每个子域必须有自己的robots.txt文件。Crawler指令负责告诉Web爬网程序他们可以抓取的Web部分。主要搜索引擎都遵循这些。但索引器爬行不存在,因此搜索引擎必须允许使用索引器指令对资源进行爬网。尽管如此,有可能将它们用于URI组。

Google.txt Parser开源

作为其为REP制定互联网标准的努力的一部分,Google开源了Google.txt Parser。Google.txt是一个长达20年的C ++库。Google团队使用REP来匹配robot.txt文件中包含的规则。谷歌在这20年中在很大程度上升级了这个库。它已经了解了很多关于网站管理员编写robots.txt文件和谷歌所涵盖的角落案例的知识。该库托管在GitHub存储库中,社区可以使用该存储库来访问工作。

Google.txt Parser开源的主要目标是从全球社区获取REP的标准化帮助。通过使其成为开源,整个社区可以访问,提出建议并帮助完成这些工作。Google还提供了一个测试工具包,帮助社区测试一些规则。这定义了robots.txt解析的所有先前未定义的场景。

利用Google提供的这种开源解析器,开发人员社区可以按照REP的指示创建解析器。这是为了确保Web机器人仅扫描指示他们扫描的Web部分。Web机器人现在可以使用任何基于URI的传输协议,而不是HTTP。

外表

谷歌通常不会透露其从核心研究到开源世界的一些东西。这是Google做到这一点的罕见时刻之一。通过这种方式,开源世界可以读取和收听任何爬虫或编码器可用的robots.txt文件。有些行业正试图扩大REM。雅虎!搜索博客和Microsoft Live Search网站管理员团队包括通配符支持,站点地图和额外的META标记。

免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。