最近打算用ZP写一个自动采集发布的脚本,采集和发布已经搞定了,关于用ZP进行采集的视频教程制作也在日程上。现在出现的一个问题就是文章的质量。
用ZP来判断文章质量其实跟其他软件判断文章质量的意思应该差不太多。但是由于没有那些内置的功能,因此只能做一个大概的猜想。
首先获取整体的字数,进行一个最初步的判断。
第二步判断是否有超长的字母或者数字,有些无意义的文章的内容就是有大量的数字或者字母。
第三步判断是否有过多的符号,例如一个2000个字母构成的文章当中包含了超过500个符号,那么自然这个文章是无意义的。
第四步判断文章当中是否包含足够数量的关键词,或者是存在过多的关键词。
基本上经过这几步判断也就可以进行一个粗略的过滤了,但是由于判断语句过多,而且其中一些判断语句我自己目前还不会写正则,所以要做出来,可能要费力一些了。
写这篇文章主要也是给自己一个记录,也算是提出一种思路。
有兴趣的话,欢迎加我QQ探讨,联系方式在网站上方的联系我。
Popularity: 42%