这里是“中国民俗学网志愿者团队”的工作空间。主持人:耿羽、恩施土家、木兰山人、大高、暮蝉、齐鲁青未了、南池子、张多等。Email邮箱:CFNGroup@gmail.com ;QQ群号:101757736,QQ群主:齐鲁青未了。请各位版主及时持本网注册ID加入该管理群,以便沟通和联系。您有何建议和意见,欢迎在本空间留言,或是发站内消息。谢谢您的光临~~~

中国民俗学微博关键词(2012-06)

上一篇 / 下一篇  2012-06-14 09:25:52 / 图片数(3)

图片是从中国民俗学微博最近200条微博中产生的关键词。这项技术当有助于专业研究中的词频分析。。。


简介

围脖(微博)关键词,是清华大学自然语言处理组开发的一个自然语言处理应用。该应用利用自然语言处理的关键词抽取技术,分析用户近期发表微博内容,提取代表用户兴趣的关键词,并采用文档可视化技术呈现关键词,便于用户快速了解自己、好友、主题等的关键词。“见微知著,博观约取”,我们希望用户能够通过这款智能应用更好地发现自己和好友的兴趣。

目前围脖关键词的主要功能包括:“我的微博关键词”,分析用户发布微博中的关键词;“Ta的微博关键词”,允许输入用户昵称以查询他们微博的关键词;“主题的微博关键词”,允许输入主题词以查询微博中与该主题词相关的关键词;“我的微T恤”,利用用户的微博关键词产生个性化微T恤。

欢迎各位使用和关注我们的应用,并提出您的宝贵意见。我们将对应用进行不断完善。

团队介绍

团队成员:刘知远(算法和框架设计),陈新雄(框架实现),唐家渝(前端设计),梁晨(应用实现),赵弘泽(后台实现),赵旭(后台实现)。

指导教师:孙茂松教授

技术路线

该应用采用了清华大学自然语言处理组最新提出的关键词抽取算法。该算法利用统计机器翻译模型(SMT)中的词对齐模型发现文档中的词与关键词之间的语义联系,从而能够更好地综合文档内容推荐合适的关键词,即使这个关键词在文档中出现的次数并不显著。

感兴趣的用户和学者,可以参考2011年我们在国际会议CoNLL上发表的论文:Automatic Keyphrase Extraction by Bridging Vocabulary Gap [pdf][bib]。稍后我们也将放出利用该算法实现关键词抽取的网络调用API,供感兴趣的用户试用,敬请关注。

联系我们

转自新浪微博:thunlp

图片分享
  • 主题地址:
    通过E-mail / MSN / QQ,把节目地址告诉你的好友
  • 图片地址:
    在各类论坛、Blog的文章编辑器中选择“插入flash”,直接复制就可以了
  • 页面代码:
    可以用于所有支持html编辑的网页或blog(标准尺寸340*300)

TAG: 关键词 民俗学 微博 主题 词频分析

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

Open Toolbar