出版社电子书判断标准及检测下线
资源分享型网站在运营的过程中,免不了有些上传者分享上传电子书,访问量不高不说,也没有几个钱收入到账,很有可能被出版社被告,导致输了官司,落个臭名,还输了钱,得不偿失。若情形严重,还可能征信出问题。既得罪上传者,又得罪出版社,两方不讨好。如果你的文库网站,每天用户上传几万个文档以上,如果网站规模小,也不可能做到每条都去审核。因此,通过指定规则来判断什么是电子书,这个很关键。然后让程序来跑,就可以解决95%的问题。本检测工具正是因为此而生。准确检测准确率达到92%以上。
应用场景:自媒体网站站点、文库网站等各类站点
应用功能:出版社电子书检测,电子书版权检测,出版社电子书筛查,规避出版社电子书风险。
出版社电子书专项判断检测介绍
通过标题、页数、是否扫描版、格式、文本信息来判断是否一个文档为出版社电子书,返回结果为是或者否,如果是,系统进行立即下架(不可全文,且无法下载)或者直接删除处理。其中标题是采集当当网、京东图书、中国图书网等图书名录,包括出版社名称、作品简介、作者姓名、出版时间等规则跑下来,然后进行机器学习。如果本站的书籍名称和该上传的文档极度相似,则应该考虑立即下架。考虑超过200页以上的扫描件文档作为优先下架的电子书,同时如果文本前X字以内出现了“出版社”等字样,也应该严重怀疑是电子书等。综合以上因素进行综合考量,得出是否下架的 判断。