注册会员   登录
代理IP知识问答
今日头条是如何解决抓取软文问题的?
提问时间:2016/6/27 14:03:50    楼主:未知网友   阅读量:6301
即抓取内容中的软文如何过滤?如广告,枪手文,水文等
1楼(未知网友)

头条首发 信息搜索 不能重复 否则不予推荐
2楼(匿名用户)

抓不抓和展示不展示不是一个概念吧?
3楼(未知网友)

今日头条,很让人失望。
一年前,在某应用市场看到它上架的身影,觉得内容引擎的概念很是新颖,让人眼前一亮,同时也很期待这种划时代的功能。
然而,后期的运作让人大跌眼镜,失望之极。
总结其原因,不外乎两点,一个是技术,另一个则是运营方式。
当然这是题外话。
题主的这个问题。额,怎么说呢,属于技术上的问题。今日头条很显然没很好解决这个问题。以至于如今满满的屏幕都是广告。用户体验什么的,就不说了。
所以深究它是怎么做到过滤的,简直毫无意义啊,试问它解决这问题了么?
4楼(未知网友)

从来不用,我自己知道要看什么不需要它推荐。
5楼(未知网友)

人工审核啊
6楼(未知网友)

我是单纯来看吐槽的,可是看到大家的反馈,自己也实在憋不住了,一吐为快吧。

记得是大三的时候吧,装上了头条的客户端,当时最让我眼前一一亮的是他们产品广告语:您所关注的,就是头条。

文章品质在一定的时间内还是不错的,我当时比较关注的就是里面的当地新闻版块。觉得这里面的新闻都是发生在自己身边的,对自己来讲都是比较有价值的一些新闻。那段时间,感觉这真的是一个很棒的获取新闻的哎屁屁。

不过,从今年开始吧,里面的文章质量急剧的下降。从里面新闻稿件的来源就可以看得出来,来自各种门户网站及地方报纸等方向,很少见到左上角或者右下角没有被编辑备注过来源的。当时感觉就是这网站的原创新闻何在?自己东西都没有,全指望整合别人的东西,吃别人咀嚼过的东西好景也不长了。最后真如我所料想的,新闻渐渐地趋向于一些很低俗的新闻。甚至连知音上那些很恶俗的男女故事都搬上来,或者就是标题党“我背着老公在外面有了外遇,我该怎么办?”这种恶俗的新闻。如果你觉得这是高潮,那你就错了。到后来,在看新闻的时候,竟然发现题文不符,更夸张的是一篇稿件几段式竟然是完全讲述的不同的事情。拜托小编大大,你复制黏贴的时候能认真一点么?领导还给你发工资呢好吧!看到一篇这样的新闻,我也真的是醉的不省人事了。后来卸载掉,永不录用。

再说到里面的广告,一点开就是漫长的5-10秒的广告,点进去里面一屏幕的某某地产广告,某某汽车广告。最夸张的一次,我数了一下,视线所及之处,总共就显示七八条新闻,一半以上是广告软文,不,确切的说不是软广告,是硬的。完全没有阅读新闻的心情了。

不过,后来我又尝试装了一些其他的如网易、搜狐之类的哎屁屁,新闻也大部分靠转载,各个门户新闻共享,所有的内容都差不多,互相借用一下而已。个性都不明显,没有自己的USP,所以导致客户装哪一个都差不多。再这样下去,各网站的编辑大大们可以直接歇产假了。

我知之甚少,以上仅代表个人观点和个人体验。
7楼(未知网友)

那些低劣软文难道不是软件推送的?
8楼(未知网友)

没有解决吧
9楼(未知网友)

今日头条的抓取逻辑是,首先先索引到内容库中来,再按照后台对媒体的评级,用户在其他社交平台上对该内容的评论反映等维度,辨别文章的价值,点的人越多,被推荐的机会就越大。

至于是否是软文、广告、水稿,机器的理解是,它只是一条信息。要知道,软文、广告、水稿等也是信息,只要信息有人需要,有人愿意点击,有人愿意分享,它就是有价值的,反而像人类的“洁癖”行为,特意去区别一些稿子是否是软文、广告、水稿的行为在机器上并没有出现。

恩,新闻也是软文,所以,“洁癖”这点爱好可以截止了,真不喜欢,不点就是,反正“屏读”最多只会浪费你0.1秒的时间。
10楼(站大爷用户)

抓过来不显示就可以了
今日头条最牛逼的是如何算热文章
如果一个软文写出来够热,显示出来也不会有问题
而大多数软文连写作者都不忍看第二遍
友情链接 (合作QQ207309712):  每日免费代理IP  代理IP知识问答  网站地图


©CopyRight 2012-2017    辽ICP备17012256号-2   
 
客服QQ:207309712   投诉建议:2219765152    站大爷代理IP交流群:417568497    爬虫开发者交流群:343030927

警告:本站资源仅限用来计算机技术学习参考及大数据爬虫应用等合法行为,用户所有操作行为均有日志记录存档并保留2个月,用户若擅自利用本站资源从事任何违反本国(地区)法律法规的活动,由此引起的一切后果与本站无关。