在令牌流中解析上下文无关语言

Parsing context-free languages in a stream of tokens

问题

给定具有任意规则和标记流的上下文无关文法,如何有效识别匹配文法的流片段?

例子:

语法

S -> ASB | AB

A -> a 

B -> baabaaabbc...S -> ASB | AB

A -> a 

B -> bS' -> S | GS' | S'GS' | S'G

G -> sigma*

(所以本质上,多个 as 后跟相同数量的 bs)

溪流:

S -> ASB | AB

A -> a 

B -> baabaaabbc...S -> ASB | AB

A -> a 

B -> bS' -> S | GS' | S'GS' | S'G

G -> sigma*

预期结果:

  • 从位置 1 开始匹配:ab
  • 从位置 4 开始匹配:aabb
  • 当然,关键是"有效地"。没有测试太多绝望的候选人太久。我对我的数据唯一了解的是,尽管语法是任意的,但实际上匹配序列会相对较短(10000 个终端)。

    理想情况下,我还想要一个语法树,但这并不是很重要,因为一旦识别出片段,我就可以在它上面运行一个普通的解析器来获取树。

    我应该从哪里开始?哪种类型的解析器可以适应这种类型的工作?


    "任意语法"让我建议你看看 wberry 的评论。

    这些语法有多复杂?是否有人工干预步骤?

    我会尝试的。如果我修改了您的示例语法:

    S -> ASB | AB
    
    A -> a 
    
    B -> baabaaabbc...S -> ASB | AB
    
    A -> a 
    
    B -> bS' -> S | GS' | S'GS' | S'G
    
    G -> sigma*

    包括:

    S -> ASB | AB
    
    A -> a 
    
    B -> baabaaabbc...S -> ASB | AB
    
    A -> a 
    
    B -> bS' -> S | GS' | S'GS' | S'G
    
    G -> sigma*

    所以 G = 垃圾和 S' 是许多 S 片段之间有垃圾(我可能对我的生产规则粗心。你明白了),我认为我们可以解决你的问题。您只需要一个在 G 之前匹配其他规则的解析器。您可能需要根据解析器修改这些生产规则。我几乎保证会根据解析器进行规则排序更改。由于大多数解析器库将词法分析与解析分开,因此您可能需要一个包罗万象的词位,然后修改 G 以包含所有可能的词位。根据您的具体情况,这可能不会比仅在流中的每个位置开始每次尝试更好(效率方面)。

    但是...假设我的生产规则是固定的(为了正确性和解析器的特殊风格),这不仅应该匹配流中的片段,而且应该为您提供整个流的解析树。您只对以 S 类型的节点为根的子树感兴趣。


相关推荐

  • Spring部署设置openshift

    Springdeploymentsettingsopenshift我有一个问题让我抓狂了三天。我根据OpenShift帐户上的教程部署了spring-eap6-quickstart代码。我已配置调试选项,并且已将Eclipse工作区与OpehShift服务器同步-服务器上的一切工作正常,但在Eclipse中出现无法消除的错误。我有这个错误:cvc-complex-type.2.4.a:Invali…
    2025-04-161
  • 检查Java中正则表达式中模式的第n次出现

    CheckfornthoccurrenceofpatterninregularexpressioninJava本问题已经有最佳答案,请猛点这里访问。我想使用Java正则表达式检查输入字符串中特定模式的第n次出现。你能建议怎么做吗?这应该可以工作:MatchResultfindNthOccurance(intn,Patternp,CharSequencesrc){Matcherm=p.matcher…
    2025-04-161
  • 如何让 JTable 停留在已编辑的单元格上

    HowtohaveJTablestayingontheeditedcell如果有人编辑JTable的单元格内容并按Enter,则内容会被修改并且表格选择会移动到下一行。是否可以禁止JTable在单元格编辑后转到下一行?原因是我的程序使用ListSelectionListener在单元格选择上同步了其他一些小部件,并且我不想在编辑当前单元格后选择下一行。Enter的默认绑定是名为selectNext…
    2025-04-161
  • Weblogic 12c 部署

    Weblogic12cdeploy我正在尝试将我的应用程序从Tomcat迁移到Weblogic12.2.1.3.0。我能够毫无错误地部署应用程序,但我遇到了与持久性提供程序相关的运行时错误。这是堆栈跟踪:javax.validation.ValidationException:CalltoTraversableResolver.isReachable()threwanexceptionatorg.…
    2025-04-161
  • Resteasy Content-Type 默认值

    ResteasyContent-Typedefaults我正在使用Resteasy编写一个可以返回JSON和XML的应用程序,但可以选择默认为XML。这是我的方法:@GET@Path("/content")@Produces({MediaType.APPLICATION_XML,MediaType.APPLICATION_JSON})publicStringcontentListRequestXm…
    2025-04-161
  • 代码不会停止运行,在 Java 中

    thecodedoesn'tstoprunning,inJava我正在用Java解决项目Euler中的问题10,即"Thesumoftheprimesbelow10is2+3+5+7=17.Findthesumofalltheprimesbelowtwomillion."我的代码是packageprojecteuler_1;importjava.math.BigInteger;importjava…
    2025-04-161
  • Out of memory java heap space

    Outofmemoryjavaheapspace我正在尝试将大量文件从服务器发送到多个客户端。当我尝试发送大小为700mb的文件时,它显示了"OutOfMemoryjavaheapspace"错误。我正在使用Netbeans7.1.2版本。我还在属性中尝试了VMoption。但仍然发生同样的错误。我认为阅读整个文件存在一些问题。下面的代码最多可用于300mb。请给我一些建议。提前致谢publicc…
    2025-04-161
  • Log4j 记录到共享日志文件

    Log4jLoggingtoaSharedLogFile有没有办法将log4j日志记录事件写入也被其他应用程序写入的日志文件。其他应用程序可以是非Java应用程序。有什么缺点?锁定问题?格式化?Log4j有一个SocketAppender,它将向服务发送事件,您可以自己实现或使用与Log4j捆绑的简单实现。它还支持syslogd和Windows事件日志,这对于尝试将日志输出与来自非Java应用程序…
    2025-04-161