R科研作图学习小组

http://group.keyangou.com/RGraph
组长: 管理员:
  • 访问次数:29819
  • 小组等级:9
  • 话题:593
  • 回答:39
  • 签到:445
  • 小组排名:
  • R语言第二期2-3: R读取mysql中CELL的abstract分词并生成词汇云

    真·科研狗 发布于:2018.03.06


    任务1. 读取mysql数据库中article表,将abstract分词

    用到的数据包:RMySQL

    获得abstract之后,需要先去掉一些标点符号和特殊符号,之后通过空格分割字符串。

    比如最终得到的分词存储变量为words,words为一个data.frame,有两列,第一列word为记录哪个单词,第二列记录出现的次数。那么运行head(words)之后出现如下内容:

    微信截图_20180306234318.png

    word代表是每个单词,freq代表出现的次数


    任务2. 利用wordcloud2包绘制词汇云

    用到的包:wordcloud2

    得到的图如下样式:

    1.png


    任务3. 对分词之后的数据进行排序,然后去掉一些冠词,介词,如:of,the,that.然后再绘制词汇云。得到的可能如下:

    2.png

    上图为排序之后words变量的内容

    3.png

    上图为去掉一些词之后的词汇云:

    del_word = c('of','the','and','in','to','a','that','is','for','by','with','we',
    'are','an','this','these','as','from','which','at','their','have','or','our',
    'its','but','how','be','as','here','on','can','into','data','between','both','also')


    您还可以去掉更多的词,这样就会得到不同的词汇云。还可以根据wordcloud2的参数得到不同形状的词汇云。


    注意:每次运行wordcloud2都会得到不一样的词汇云,所以不用纠结是否和上面图像一致。

     

     
    1条评论 312浏览 邀请回答

    微思微丝 回答于:2018年03月08日 09:47:431楼

    南昌 南昌大学江西医学院 药学在读硕士 

    这期的任务好酷炫啊,但是看起来又很难



    小组告示

    科研狗 2012-2016 京ICP备16006621 科研好助手,专业的科研社交共享平台