提取的话题
stat的主题提取特征试图通过自然语言处理和统计分析相结合的方法来揭示文本集合中隐藏主题结构。 WordStat中用于主题提取的主要统计过程是因子分析。从技术上讲,这种抽取是通过按文档频率矩阵计算单词来实现的,或者也可以通过将文档分割成更小的块并按段频率矩阵计算单词来实现的。一旦得到了这个矩阵,就需要进行可变旋转的因子分析,以提取少量的因子所有因子加载高于特定标准的单词将作为提取主题的一部分进行检索层聚类分析,一个词可能只岀现在一个集群中,话题建模使用因子分析可能导致一个词与多个因素有关, polysemic自然的特点,更实际地代表一些单词以及单词的多个上下文使用。
当前的主题建模过程的实现限制在2500个单词或内容类别。(我们正在设法将其能力提高到至少两倍。)为确保保理方案的稳定性,最好将低频项排除在外。因此,强烈建议删除在较小数据集上出现的小于10倍的单词,在较大数据集上最好是小于30到在提取主题之前,还可以使用词干提取、词元化或创建分类词典来对单词或短语(包括不太常见的单词或短语)进行分组。
Wordstat提供了以下分析选项来控制主题建模过程:
分段—一这个选项允许指定用于主题建模的数据是基于同一文档中单词的共现,还是基于段落或句子中的共现。在理相情况下,分段的选柽应该反独主题曲型文档中和跨京档中是如何布的,以及分析的目标。当文本集合由包含多个主题(比如冗长的政治演讲)的长文档组成,并且需要识别所有主题以便比较它们的相对频率时,按段落或句子执行分段可能比按文档计算共出现次数更敏感。另外,如果试图通过标识域或规程来区分文档,或者标识文档的主要问题,那在文档级别执行分析可能更合适。在分析开放式问题的回答时,可能会在一个段落中列出几个主题,句子分割也可能导致更精确地抽取出其中的各种主题
主题一一设置此选项允许指定要提取的主题数量
加载一一此选项允许设置一个单词要在因子解决方案中保留的最小因子加载值。甓认情况值设置为增加截止值会减少单词的数量,只保留更有代表性的单词,而减少截止值可能包括与所提取主题不太相关的单词设置选项之后,单击按钮执行分析。请注意,提取超过几百个单词的主题可能需要几分钟旦提取,主题页面应该像这样
上边的表格包各了以下信息
NO | 显示因子编号。请注意,如果他们的项目没有达到因素加载截止标准,一些因子号 「能被省略。当用户合并因子时,此列显示已合并在一起的所有因子的编号 |
NAME | Wordstat使用一种算法为提取的主题自动提供标签。此标签可通过单击按钮进行编 |
关键字 | 按因子加载的降序顺序列出所有满足因子加载截止条件的关键字 |
%VAR | 已解释的方差百分比。请注意,选择的部分越小,百分比越低 |
频率 | 显示关键词列中列出的所有项目的总频率情况下显示包含关键字列中列出的至少一项的用例的数量 |
%cases案例 | 显示包含关键字列中列世的至少一个项目的案例的百分比 |
主题建模按钮:
允许删除选定行的主题 | |
单击此处可将一个主题合并为另一个主题。首先需要选择包含要合并的行,然后单击该按钮。将出现一个对话框,其中包含所有其他主题的列表选择第二个主题并单击OK | |
重命名主题,首先选择主题,然后单击此按钮。键入新名称并单击OK | |
检索与主题关联的片段,请选择该主题并单击此按钮。所有包含所选主题关键字的文本片段将被检索并以表格格式呈现。不过,您可以更改检索片断的类型(段落、句子或完整文档)或检索所需的主题词的最小数量。 | |
允许对所有提取的主题执行共现分析,包括聚类和多维缩放,并创建邻近图和裢图。有关可用的各种特性的更多信息,请参见共现页面主题 | |
允许对结构化数据显示的所有主题执行完全的交叉分析,应用统计分析,并创建各种图如对应图、热图、气泡图和柱状图。有关交叉分析可用的各种特性的详细信息,请阅交叉表页面主题 | |
当前显示的提取主题存储到一个新的分类字典中,其中第一级的文件夹对应不同的千且每个文件夹都包含相关的单词。对话框允许保存 | |
比按钮可在报表管理器中追加主题表的副本。将自动提供一个描述性标题。若要编辑此标题或输入新标题,请在单击此按钮时按住SHT键盘键(侑有关报表管理器的更多信请参阅报表管理特性主题) | |
允许以各种詻式存储主题表到磁盘,包括 Excel,标签和逗号分隔文件,纯文本,HTMl,XML,SPSS,STATA文件等 | |
允许打印所显示图表的副本 |
使用右面板
此表的右侧是一个面板,允许查看所选主题在最多两个结构化变量值之间的分布情况。通过单击相应的按钮,可以使用垂直条形图、水平条形图或折线图来显示这个分布。这些图表还可表示四项统计数字
case occurrence | 现子组中至少包含其中一个单词的大小写数 |
类别百分数- | 子组中至少包含其中一个单词的案例的百分数 |
词频 | 这些词在这个子组的总数 |
每10000个单词的速率 | 在这个子组中每10,000个单词的速率 |
右击图表区域中的任何位置将显示弹出菜单,该菜单允许编辑图表、将其保存到磁盘或报表管理器中,或将其复制到剪贴板中。单击折线图的特定条或数据点还允许检索与所选类关联的文本片并包含所选主题的单词